人工智能指数报告2023

2023-04-24 16:43:51

来源:斯坦福

斯坦福发布了《人工智能指数报告2023》这篇报告。以下是对该报告的部分摘录,完整内容请获取原文查看。该报告引入了比以往任何一版都多的原始数据,包括关于AI舆情的新章节,更彻底的技术性能章节,对大语言和多模态模型的原创分析,全球AI立法记录的详细趋势,关于人工智能系统对环境的影响的研究等等。


(资料图片仅供参考)

1.研究和开发

1.1出版物

概述

2010 年至 2021 年全球出版物——按类型、隶属关系、跨国合作和跨行 业合作。该部分还细分 按地区划分的 AI 期刊文章、会议论文、存储库和专利的出版和引用数据。

AI出版物的总数

从 2010 年到 2021 年,人工智能出版物总数翻了一番多,从 2010 年的 200,000 份增 加到 2021 年的近 50 万份。

类型的出版物

2021 年,所 有已发布的 AI 文档中有 60% 是期刊文章,17% 是会议论文,13% 是存 储库提交。书 书籍章节、论文和未知文档类型占出版物的剩余 10%。虽然期刊和存储库出 版物已经增长 3 和26.6倍,在过去12年中,会议论文数量自2019年以来有所下降。

通过研究领域

模式识别和机器学习领域的出版物在过去五年中经历了 最急剧的增长。2015年以来,模式识别论文数量有所下降 大约翻了一番,而机器学习论文的数量大约翻了两番。继这两个主题领域之 后,2021 年,下一个发表最多的人工智能研究领域是计算机视觉 (30, 075)、算法 (21,527) 和数据挖掘 (19,181)。

1.2 重要的机器学习系统的趋势

通用机器学习系统

作为参考, 这些系统在整个小节中被称为重要的机器学习系统。

系统类型

在 2022 年发布的重要 AI 机器学习系统中,最常见的系统类别是语言。2022 年发布了 23 个重要的 AI 语言系统,大约是下一个最 常见的系统类型多模式系统的六倍。

行业分析

在工业界、学术界或非营利组织中,哪个部门发布了数量最多的重要机器学 习系统?直到2014年,大多数机器学习系统都是由学术界发布的。 从那时起,工业接管了。2022 年,有 32 个重要的行业生 产 机器学习系统与学术界仅开发的三个系统相比。生产最先进的人工智能 系统越来越需要大量的数据、计算能力和资金;资源 与非营利组织和学术界相比,行业参与者拥有的金额更多。

国家关系

为了描绘人工智能不断变化的地缘政治格局,人工智能指数研究小组 确定了作者的国籍。 为Epoch数据集中每个重要机器学习系统的开发做出了贡献。

2.技术性能

2.1 有什么新2022年:一个时间表

2022年2月2日:DeepMind释放AlphaCode。AlphaCode是一种以竞争水平编写计算机程序的人工智能系统,在人类编程竞赛 中排名前54%。这代表了人工智能传统上难以解决的更复杂的问题解决任务的改 进。

2022年2月16日:DeepMind训练强化学习代理来控制托卡马克中的核聚变等离 子体核聚变是清洁、无限的潜在来源 能量,但由于缺乏实验数据,在托卡马克中产生这种能量很困难。DeepMind模拟 了最佳的托卡马克管理,这是人工智能如何加速科学和应对气候变化的一个例子。

2022年3月10日:IndicNLG 基准测试印度语言的自然语言生成 。一个国际研究集体推出了IndicNLG,这是一个数据集集合,用于对11种印度语言的自然语言生成进行基准测试IndicNLG的创建 增加了人工智能系统在更多样化、非英语语言环境中生成语言的潜力。

2.2 计算机视觉形象

图像分类

图像分类是机器对图像中的对象进行分类的能力。

ImageNet

ImageNet 是图像分类中使用最广泛的基准测试之一。该数据集包括超 过 1400 万张图像,涵盖 20,000 个不同的对象类别,例如“草莓”或“ 气球”。ImageNet 的性能是通过各种准确性指标来衡量的。top-1 准 确度衡量由给定图像的图像分类模型生成的顶部预测与图像标签的实际 匹配程度。

截至 2022 年,ImageNet 上最好的图像分类系统的准确率为 91.0%。尽管目前最先进的系统的图像分类能力比十年前提高了27.7 个百分点,但去年分类精度提高了0.1个百分点。

人脸检测和识别

面部检测和识别是人工智能系统识别图像或视频中的人脸或个人的 能力。目前,许多面部护理 识别系统能够成功识别接近100%的人脸,即使在具有挑战性的数据 集上也是如此。

3.人工智能技术伦理

3.1 荟萃分析的公平和偏差指 标

AI公平和偏差指标

算法偏差是根据分配和表示危害来衡量的。当系统不公平地将机会或资源 分配给特定群体时,就会发生分配性伤害,当系统延续刻板印象时,就会 发生代表性伤害 以及以加强群体从属关系的方式的权力动态。当算法做出的预测既不偏袒 也不歧视基于受保护的属性而无法用于决策(例如种族、性别、宗教)时 ,它们被认为是公平的。

2022 年,发布了几个新的数据集或指标,以探索模型的偏见和公平性,无 论是作为独立论文还是作为 BIG-bench 等大型社区工作的一部分。值得注 意的是,指标是 扩展并变得具体:研究人员正在放大应用于特定设置(如问答和自然语言推 理)的偏差,通过使用语言模型为同一任务生成更多示例来扩展现有的偏见 数据集(例如,Winogenerated ,Winogender 基准的扩展版本)。自2016年 以来,人工智能公平和偏见指标的总数一直在稳步增长。

AI 公平性和偏差指标的数量( 诊断指标与基准)

从道德层面衡量人工智能系统通常采取以下两种形式之一。基准测试包含标 记数据,研究人员测试如何 好吧,他们的AI系统标记了数据。基准不会随时间而改变。这些是特定 于领域的(例如,用于语言模型的SuperGLUE和StereoSet;用于计算 机视觉的ImageNet),并且通常旨在测量模型固有的行为,而不是其 在特定人群上的下游性能(例如,StereoSet测量模型选择刻板印象的 倾向与非刻板印象相比,但它不衡量不同子组之间的性能差距)。 这些基准通常作为内在模型偏差的指标,但它们可能无法清楚地指示模型 的下游影响及其嵌入系统时的外在偏差。

诊断指标衡量模型对下游任务的影响或性能,它通常与外部影响有关,例如 ,与类似个体或整个总体相比,某些任务对总体子组或个体的模型性能差异 。这些指标 可以帮助研究人员了解系统在现实世界中部署时的性能,以及它是否对某些 人群产生不同的影响。 以前比较自然语言处理中的公平性指标的工作发现,上下文化语言模型的内 在和外在指标可能不会相互关联,突出了仔细选择指标和解释结果的重要性。

2022 年,向社区引入了一系列新的伦理基准和诊断指标。一 些指标是现有公平性或偏见指标的先前版本的变体,而其他指标则试图衡量 以前未定义的偏见测量 - 例如,VLStereoSet是一个基准,它将用于评估语 言模型中的刻板偏见的StereoSet基准扩展到文本到图像设置,而 HolisticBias测量数据集组装了一组新的句子提示,旨在量化以前工作中未 涵盖的人口统计偏差。

3.2 艾未未事件

AI、算法和自动化事件和争议 ( AIAAIC) 存储库:随时间推移的 趋势

AI、算法和自动化事件和争议 (AIAAIC) 存储库是一个独立、开放和 公共的数据集,其中包含由 AI、算法和自动化驱动或与之相关的近期事 件和争议。它是在 2019年作为一个私人项目,以更好地了解人工智能的一些声誉风险 并已发展成为一个全面的计划跟踪与人工智能技术相关的道德问题。

2021年AIAAIC数据库中新报告的人工智能事件和争议数量是2012 年的26倍1 .报告事件的增加可能是两者的证据 人工智能在现实世界中的交织程度越来越高,人们越来越意识到人工智 能在道德上可能被滥用的方式。这种急剧增加也提出了一个重要的观点 :随着意识的提高,对事件和伤害的跟踪也有所改善,这表明较早的事 件可能被低估了。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

关键词: