我在这里重点关注一个特定领域(人工智能研发本身),原因如下。绘制此草图的过程本文重点关注与风险相关的人工智能能力的四个领域:化学和生物武器开发能力、网络操作能力、说服和操纵能力以及与自主相关的能力(人工智能模型可以在没有人类参与的情况下创造或积累大量资源的方式)。据我所知,所有绘制绊线或开发危险能力评估的主要努力都集中在属于这些(或类似)类别之一的风险上。17 每个领域列出的潜在威胁模型都反映了与以下人员的对话:(a) 致力于绊线和“如果-那么”承诺的公司团队。
美国和英国人工智能安全研究所;(c) 就危险能力设计提供咨询的主题专家。根据这些对话构建了高级威胁模型后,我与其他组织的合作者 18 一起,粗略地尝试估计上述每个相对可信的威胁模型的损害潜力,包括有或没有 荷兰 whatsapp 数据 上述严格的风险缓解措施,并通过多份草案(包括刚刚提到的合作者的反馈)反复讨论绊线功能和限制评估,旨在得出一组合理满足上述标准的绊线。如上所述,这个过程可能向前迈出了一小步,但还远远不够。目前的重点是生成一组初步的绊线,这些绊线至少合理地(根据非正式的损害潜力估计和与相关专家的讨论)。
可以与高损害潜力威胁联系起来,并满足上述其他标准。,但没有提供针对反驳的深入分析,进一步的分析可能会缩短或扩大列表。候选绊线 本节将列出候选绊线,并根据上述标准概述: 绊线能力:可能带来风险的 AI 能力。 风险:它会带来什么风险,以及为什么潜在损害可能很高。 风险缓解:显著降低风险的选项。 评估:如何测试 AI 系统的绊线能力,特别是在极限评估方面(如上所述)。 完全指定绊线能力有时需要决定具体的数字 - 例如,AI 系统必须将发现和或利用网络攻击漏洞的速度提高多少才能算作跨越绊线。在这些情况下,我通常会在脚注中给出说明性数字。