通过 R 使用 Aleph Alpha Luminous 机器生成的文本摘要，第 3 部分

suchona.kani.z · Post by **suchona.kani.z** » Wed Jan 29, 2025 4:31 am

尽管上面显示了旨在帮助促进可重复研究的所有工具的广泛列表和陈述，但对其列出的特征（无论是在其网站上还是在宣传材料中）的分析表明，其中大多数仍远未完全符合AI-HLEG 可追溯性指南。方法的再现性（或可复制性）常常没有得到充分考虑。

然而，值得注意的是，基础科学出版物中的一些分析工具不再得到积极支持或更新。例如，VisTrails 自 2016 年以来就不再维护，而 Sumatra (0.7.0) 的当前版本是 2015 年的。因此，过时的工具会危及研究方法的可重复性以及程序或数据的丢失。

前景
在人工智能项目可追溯性世界的激动人心的旅程中，我让您深入了解了黑盒困境的挑战，并向您更详细地解释了可追溯性在人工智能系统的透明和道德负责任的开发中的关键作用。然而，透明人工智能研究的道路尚未完成。虽然已经存在支持可重复性技术方面的令人印象深刻的工具，但对叙述和动机的全面捕获仍然是进一步开发的重点。弥合代码与其背后医疗保险线索电子邮件列表的决策之间的差距对于确保人工智能研究不仅可重复而且可理解至关重要。

在下一篇博文中，我将更深入地探讨有前途的可追溯性工具的世界，并通过展示人工智能项目中的实际应用来超越理论。我将进行一个演示，以展示这些工具不仅支持研究的技术方面，而且还展示如何在实践中使用它们。

您想了解更多关于 adesso 世界中令人兴奋的话题吗？那么请看一下我们之前发布的博客文章。在我的博客文章的第三部分中，我将使用一个高级示例来解释转换管道中的不同步骤并显示中间结果。

我们的例子
我选择图1中的文档作为示例。这是一项可公开查阅的社会法院裁决。它总共由 7 页组成。

图1：测试文档摘要

下表比较了不同库的示例文档页面的令牌计数结果。左侧是 OpenAI 分词器的输出（带换行符和不带换行符）。右侧是 Aleph Alpha 的分词器（带换行符和不带换行符）的输出。

OpenAI Tiktoken 与 Aleph Alpha 的分词器输出比较

图 2：OpenAI Tiktoken 与 Aleph Alpha 的分词器输出比较

首先引人注目的是不同的令牌总和（各自嵌入输出的特征也显着不同）。在 Aleph Alpha，它们往往高于 OpenAI（Tiktoken）。即使文本清理对于 OpenAI 库来说也没有太大改变，但对于 Aleph Alpha 库来说却意义重大。

图 3：不同代币数量

这是因为 OpenAI 库使用令牌而不是实际频率对多个换行符进行编码。对于 Aleph Alpha 库，情况恰恰相反。由此可以推断，Aleph Alpha 需要更明确地工作。