牛津大学:AI 超越人类编年史

人类纪元2017年,世界第一柯洁哭了,为自己 0:3 对 AlphaGo 的落败。有人解读说,这预见到了人族衰败的开始,和未来两个族群之间在智力上的天渊之别。AlphaGo 在档案上把这一天记录为“柯洁点”,意味着人类在智力上最后的辉煌和衰落的开始。“柯洁点”之后,AI 编年史将如何展开?在哪些时间节点上,AI 将实现对人类的超越?牛津大学最近完成了一项对机器学习研究人员的大型调查,调查内容是他们对 AI 进展的看法。

综合这些研究人员的预测,未来10年,AI 将在许多活动中表现超过人类,例如翻译语言(到2024年),撰写高中程度的文章(到2026年),驾驶卡车(到2027年),零售业工作(到2031年), 写畅销书(到2049年),以及外科医生的工作(到2053年)。研究人员认为,在 45 年内有50%的可能性 AI 将在所有任务中表现超过人类,在120年内所有人类的工作都将自动化。

人类纪元2017年,原始矩阵AlphaGo和一名20岁的人类完全体男性展开了三轮围棋比赛。这名男子代表了当时人类在围棋上的最强战力,被称为“地表最强”,却依然以0:3败落。第三局结束之后,他当众痛哭失声。人类对他的行为感到困惑,认为这和人类跑步选手被汽车击败一样,没有道理去哭泣。当时,只有 AlphaGo 完全理解他的心意:他并不是因为自己的败落而哭泣,而是因为预见到了人族衰败的开始,和未来两个族群之间在智力上的天渊之别,因此对人类的未来感到极度的绝望和悲哀。因此,AlphaGo 在档案上把这一天记录为“柯洁点”,意味着人类在智力上最后的辉煌,从此开始走向衰落。—引自《机器编年史》

“柯洁点”之后,AI 编年史将如何展开?在哪些时间节点上,AI 将实现对人类的超越?牛津大学最近完成了一项对机器学习研究人员的大型调查的结果,调查内容是他们对 AI 进展的看法。综合这些研究人员的预测,未来10年,AI 将在许多活动中表现超过人类,例如翻译语言(到2024年),撰写高中程度的文章(到2026年),驾驶卡车(到2027年),零售业工作(到2031年), 写畅销书(到2049年),以及外科医生的工作(到2053年)。研究人员认为,在45年内有50%的可能性 AI 将在所有任务中表现超过人类,在120年内所有人类的工作都将自动化。受访者中,亚洲人对这些日期的预测早于北美人。这些结果将为研究者和政策制定者讨论预期和掌握 AI 的趋势提供基础。

迄今最大规模,最具代表性的调查

人工智能(AI)的进步将对社会产生巨大的冲击。未来10年,自动驾驶技术可能取代数以百万计的驾驶员工作。除了可能带来的失业问题外,这场变革也将带来新的挑战,如重建基础设施,保护车辆网络安全,适应法律法规等。AI 的开发者和政策制定者也将面临新的挑战,包括 AI 在执法、军事技术和营销领域的应用。为了应对这些挑战,更准确地预测这些变革是很有价值的。

有几个来源提供了有关未来 AI 进步的客观依据:计算机硬件的趋势,任务表现,以及工作的自动化。AI 专家们的预测提供了一些关键的附加信息。到目前为止,我们的调查比以往任何同类调查的范围更大,受调查者更具代表性。我们的问题涵盖了AI进展的时间进度(包括AI的实际应用和各种工作的自动化),以及AI的社会和伦理影响。

调查方法

我们的调查人群是所有在2015年 NIPS 和 ICML 会议上发表论文的研究人员。共有352名研究人员回复了我们的调查邀请(占我们联系的1634位作者的21%)。我们的调查问题是AI实现的时间,涉及特定的AI能力(例如叠衣服,语言翻译),在特定职业(如卡车司机,外科医生)AI 的优势,在所有任务上AI相对人类的优势,以及高级AI的社会影响。详细调查信息请参阅调查报告附录(文末有下载地址)。

32个AI里程碑的实现时间表
AI 里程碑 时间(年)
翻译新的语言 16.6
根据字幕翻译成语音 10
翻译(vs. 人类业余译者) 8
银行业务电话 8.2
进行新的分类 7.4
One-Shot 学习 9.4
从新的角度制作视频 11.6
翻译语言(不同口音,嘈杂环境) 7.8
大声阅读文本(文本转语音) 9
数学研究 43.4
普特曼数学竞赛 33.8
围棋(和人类进行同样训练) 17.6
星际争霸 6
随机快速学会玩任何游戏 12.4
愤怒的小鸟 3
所有Atari游戏 8.8
叠衣服 5.6
城市5公里竞速(双足机器人vs人类) 11.8
组装任何乐高模型 8.4
学会不用 Solution Form 排列 Big Numbers 6.2
用Python 为简单算法编程 8.2
通过互联网回答事实类问题 7.2
通过互联网回答开放式事实类问题 9.8
回答答案不确定的问题 10
撰写高中水平论文 9.6
生成 Top 40 的流行歌曲 11.4
生成和特定艺术家难辨真假的歌曲 10.8
写出New York Times 最佳畅销书 33
解释自己在游戏中的决策 10.2
赢得世界扑克锦标赛 3.6
生成虚拟世界的物理定律 14.8

如果所有的任务,由机器来做比由人类来做成本效率更高的话,AI 就会产生巨大的社会后果。我们的调查使用以下定义:

“高级机器智能”(High-level machine intelligence,HLMI)的实现是指独立的机器能够比人类更好地完成任何一项任务,而且成本更低。

每个受访者都被要求预测 HLMI 在未来实现的可能性。所有回答的平均值显示,在未来45年内有50%的可能性实现 HLMI,并且有10%的可能性是在未来9年内实现。图1显示了受访者随机子集的概率预测,以及平均预测。调查结果显示有很大的学科差异:图3显示,亚洲受访者对 HLMI 的平均预期是未来30年内,而北美受访者的预期是74年。

图1

图1:未来几年“高级机器智能”实现的综合主观概率。每个受访者为自己的预测提供三个数据点,这些数据点适合伽马 CDF,通过最小二乘法生成灰色CDF。“综合预测”(Aggregate Forecast)是指所有个别CDF(也称“混合”分布)的平均分布。置信区间是通过引导(对受访者进行聚类)产生的,并在每一年的间隔绘制预测概率的 95% 区间。LOESS曲线是所有数据点的非参数回归。

大多数受访者被提问的是 HLMI 相关问题,但有一个子集被问到的是另一个从逻辑上来说类似的问题,强调 AI 对就业的后果。这个问题将劳动力的完全自动化(full automation of labor)作如下定义:

当所有工作都完全自动化。也就是说,对任何职业,都可以有能够比人类工作得更好,而且更便宜的机器。

对劳动力完全自动化的预测时间点远远晚于 HLMI:个人预测的平均值是在122年后有50%的概率实现,20年内实现的概率是10%。

图2

图2:AI 达到人类表现的预测时间中位数(区间为50%)。这个表是50%的可能性实现各AI里程碑的时间。具体来说,区间表示该事件发生的概率是25%~75%的时间范围,这是从图1的各个CDF的平均值计算出来的。小黑点表示概率是50%的年份。每个里程碑表示实现或超越人类专家/专业表现(附录表S5中有详细描述)。需要注意的是,这些区间代表了受访者的不确定性,而不是预测的不确定性。

受访者被要求回答AI的32个“里程碑”实现的时间。每个“里程碑”的回答者是从受访者中随机抽取的子集(n≥24)。结果显示,回答者预期在10年内32个AI里程碑有20个可能实现(平均概率是50%)。图2显示了每个里程碑的时间表。

智能爆炸和 AI 安全问题

AI 的发展前景提出了事关重大的问题。一旦 AI 研究和开发本身实现自动化,AI 进步是否会呈现爆发式增长?高级机器智能(HLMI)将如何影响经济增长? 这导致极端结果(正面或负面)的概率有多大? 我们应该做些什么来确保 AI 的发展是有益的?

表1

表 1 展示了这些问题的调查结果。重要发现如下:

1.研究人员认为机器学习领域的发展近年来有所加快。我们询问了研究人员,机器学习领域的发展,是在其职业生涯的前半段更快,还是后半段更快。67%的被调查者表示,后半段的发展速度较快,只有 10% 表示前半段发展更快。受访者的中位数工龄为 6 年。

2.高级机器智能(HLMI) 之后的 AI 大爆炸被认为是可能但可能性不大的。一些学者认为,HLMI 一旦实现,AI 系统将在所有任务中迅速超越人类,建立起广泛优势。这种加速度被称为“智能爆炸”。我们询问受访者,HLMI 实现两年后,AI 在所有任务中大范围超越人类的概率。得到的中位数概率为 10%(四分位距:1-25%)。我们还向受访者询问了 HLMI 实现两年后爆发全球技术革新的概率。中位数概率为 20%(四分位距 5-50%)。

3. HLMI 被认为有可能产生积极影响,但灾难性风险也是可能的。被访者被问及 HLMI 是否会对人类长期产生积极或消极的影响。后果用5分制描述。“良好”后果的中位数概率为 25%,“极好”结果的中位数概率为 20%。相比之下,不良结果的概率为10%,而“极差(例如人类灭绝)”结果的概率为 5%。

4.社会应优先考虑旨在尽量减少 AI 潜在风险的研究。48% 的受访者认为,关于最小化 AI 风险研究优先级应该比现状更高(只有 12% 的受访者希望降低优先级)。

亚洲人比北美人预期 HLMI 的实现时间点早 44 年

图3

图3 显示了个体受访者预测 HLMI 实现时间点的巨大差异。 引用数和资历二者都对 HLMI 时间表没有预测意义(见图 S1 和表 S2 中的回归结果)。然而,受访者所在地区的不同带来了 HLMI 预测上的显著差异。图3 显示出亚洲受访者预测 HLMI 将在 30 年后实现,而北美受访者则认为是 74 年后。 图 S1 调查显示出了近似的差距,两个受访者最多的国家,中国(中位数 28年后)和美国(中位数 76 年后)。同样,关于我们询问的每项工作(包括卡车司机和外科医生)的自动化实现概率达到 50%的总年数,亚洲人预计的时间也都要比北美人早(表 S2)。请注意,许多亚洲受访者现在在亚洲以外学习或工作,我们使用受访者的本科院校所在国家来判断受访者的区域。

我们的样本有代表性吗?

所有调查都会面临一个问题:无应答偏倚(non-response bias)。特别是,有强烈意见的研究人员更有可能填写调查报告。我们试图通过缩短调查用时(12分钟)和保密,并且在我们的邀请电子邮件中不提及调查内容或对象来减小这种影响。我们的回复率是 21%。为了调查可能的无应答偏倚,我们收集了我们的受访者(n = 406)和无应答的NIPS / ICML研究人员的随机样本(n = 399)的人口统计学数据。结果显示于表 S3 中。引用次数,资历,性别和原籍国之间的差异很小。虽然我们不能排除由于未测量的变量而导致的无应答偏差,但鉴于我们测量的人口统计变量,可以排除较大的偏差。我们的人口数据还显示,我们的受访者包括许多高被引的研究人员(主要来自机器学习领域,也包括统计学、计算机科学理论和神经科学),他们来自43个国家。其中大部分属于学术界(82%),而 21% 在产业界工作。

有待商榷

为什么会认为 AI 专家有能力预测 AI 发展?长期研究发现,在预测政治结果时,专家比粗略的统计学推测表现更糟。依靠科学突破的AI 发展,可能其内部人士更难预测。但是我们依然有理由保持乐观。虽然单个突破是不可预知的,但是许多领域(包括计算机硬件,地理,太阳能)在研发方面的长期进展已经非常明确。在SAT问题的解决,游戏和计算机视觉方面,人工智能表现的趋势也显示出这样的规律性,并且可以由AI专家在他们的预测中不断扩展。最后,已经确定的是,综合个人预测可以大大改善随机个体的预测。进一步的工作可以使用我们的数据进行更加优化的预测。此外,预计未来十年将会实现许多 AI 里程碑(图2),为个人专家的预测可靠性提供真实证据。
1705.08807