如何创造可信的AI?

读书笔记

◆ 献言

傻子都能“知道”。关键在于“理解”。

◆ 第1章 AI该往何处走

．抛开华而不实的文笔，此AI系统究竟实实在在地做到了哪些事？
2．此成果的通用性有多强？（例如：所提到的阅读任务，是能测量阅读中的所有方面，还是只有其中的一小部分？）
3．有没有演示程序，能让我用自己的例子来实验一下？如果没有，请保持怀疑态度。
4．如果研究人员或媒体称此AI系统强于人类，那么具体指哪些人类，强出多少？
5．被报道的研究成果中所成功完成的具体任务，实际上将我们与真正的人工智能拉近了多少距离？
6．此系统的鲁棒性如何？如果使用其他数据集，在没有大规模重新训练的情况下，是否还能成功？（例如：一个玩游戏的机器如果掌握了下国际象棋的技能，它是否也能玩《塞尔达传说》这类动作冒险游戏？用于识别动物的系统，是否能将之前从未见过的物种准确识别为动物？经过训练能在白天出行的无人驾驶汽车系统，是否也能在夜间或雪天出行，如果路上新增了一个地图中没有的绕行标志，系统是否知道如何应对？）

4．如果研究人员或媒体称此AI系统强于人类，那么具体指哪些人类，强出多少？
5．被报道的研究成果中所成功完成的具体任务，实际上将我们与真正的人工智能拉近了多少距离？
6．此系统的鲁棒性如何？如果使用其他数据集，在没有大规模重新训练的情况下，是否还能成功？（例如：一个玩游戏的机器如果掌握了下国际象棋的技能，它是否也能玩《塞尔达传说》这类动作冒险游戏？用于识别动物的系统，是否能将之前从未见过的物种准确识别为动物？

当下的繁荣局面背后，缺少了某些本质上的东西。就算揽尽所有这些进步，机器在许多方面依然无法和人类相提并论。

根据全新的、预期之外的事件进行推理和行动，不仅仅依据由先前经验所组成的巨大数据库来采取行动，还要依据强大而富有灵活性地对世界的理解来采取行动。

苦涩的现实是，目前投入到AI之中的大把银子换来的解决方案都太过脆弱、难以解释、不够可靠，根本无法解决利害关系较大的问题

理想与现实之间，存在着一个被称为AI鸿沟（The AI Chasm）的大坑。
追根溯源，此大坑可一分为三。其中每一个都需要我们坦诚面对。

第一个坑，我们称之为“轻信坑”。

第二个坑，我们称之为“虚幻进步坑”

第三个坑，就是我们所称的“鲁棒坑”

关键在于，AI并非魔法，而是一套工程技术和算法，其中每一种技术和算法都存在自身的强项和弱点，适用于解决某些问题，但不能用于解决其他问题。

◆ 第2章当下AI的9个风险

第一个风险是第1章中讲过的基本超归因错误。AI总是让我们误认为它拥有与人类相仿的智慧，而事实上根本没有。

第二个风险是鲁棒性的缺失。

第三个风险是，现代机器学习严重依赖于大量训练集的精准细节，如果将这样的系统应用于训练过的特定数据集之外的全新问题，就没法用了

第四个风险是，当需要更微妙的方法时，盲目地过分依赖于数据，还会导致过时的社会偏见长期存在

第五个风险是，当代AI对训练集的严重依赖，也会引发有害的回音室效应，系统最后是被自己之前产出的数据所训练的。

第六个风险是，有些程序依赖于公众可任意操纵的数据。

第七个风险是，之前已经存在的社会偏见再加上回音室效应，会进一步加剧社会偏见的程度

第八个风险是，太容易落入错误目标的陷阱。

第九个风险是，由于AI的潜在影响范围非常之广，即使在非常初级的状态下，也有可能被别有用心的人利用，对公众造成严重伤害

◆ 第3章深度学习的好与坏

特别需要强调的是，深度学习面临三个核心问题，每一个问题既会影响到深度学习自身，也会影响到严重依赖于深度学习的其他流行技术，比如深度强化学习：46
第一，深度学习是贪婪的

第二，深度学习是不透明的

第三，深度学习是脆弱的

怎样才能让机器以普通人类的综合能力为标准，去思考、推理、讲话、阅读。我们需要的，不仅仅是“更深的”深度学习，不是在神经网络中加入更多的分层，而是“更深的理解能力”。瞬息万变的世界中，以因果关系相互联结的实体之间存在着复杂的互动，我们需要有能力真正对这种互动进行推理的系统。

◆ 第4章计算机若真有那么聪明，为什么还不会阅读

计算机不会阅读的第一个原因是不会建立认知模型

阅读是一个动态的过程

用认知心理学的话来讲，你在阅读文本时所做的，就是建立一个关于文本表达意义的认知模型。

计算机不会阅读的第二个原因是不理解“不”的含义。

计算机不会阅读的第三个原因是无法应对模糊性。人类语言充满了模棱两可的描述。

◆ 第5章哪里有真正的机器人管家

建造机器人和建造拥有阅读能力的机器，是完全不同的两类挑战。建造机器人需要更多的实体环节，更少的叙述和理解，还具有更大的潜在危险性——将滚烫的茶水洒在某人身上，比翻译过程中的小错误要严重得多。

没有丰富的认知模型，就没有真正的阅读。同样，没有丰富的认知模型，就没有安全可靠的机器人管家。在认知模型的基础之上，机器人还需要具备我们所谓的“常识”：对世界的丰富理解，知道世界如何运转，在不同的环境之中可能发生什么事、不可能发生什么事。

◆ 第6章从认知科学中获得的11个启示

1．没有银弹

我们看来，深度学习也落入了“寻找银弹”的陷阱，用充满“残差项”和“损失函数”等术语的全新数学方法来分析世界，依然局限于“奖励最大化”的角度，而不去思考，若想获得对世界的“深度理解”，整个体系中还需要引入哪些东西。

．认知大量利用内部表征

表征

布朗大学机器学习专家斯图尔特·杰曼（Stuart Geman）所言：“神经建模的根本挑战在于表征，而不是学习本身

布朗大学机器学习专家斯图尔特·杰曼（Stuart Geman）所言：“神经建模的根本挑战在于表征，而不是学习本身

．认知系统是高度结构化的

5．即便是看似简单的认知，有时也需要多种工具

规则性需要利用记忆（内存）能力，而规则性即使在几乎没有直接相关数据可用的情况下也能进行泛化。

同样，大脑也利用几种不同的模式来处理概念，利用定义，利用典型特征，或利用关键示例。

融合

米斯·哈萨比斯最近讲道：“真正的智能远远不只是深度学习所擅长的感知分类，我们必须对其进行重新组合，形成更高级的思考和符号推理，也就是20世纪80年代经典人工智能试图解决的那些问题。”33要获得适用范围更广的AI，我们必须将许多不同的工具组织在一起，有些是老旧的，有些是崭新的，还有一些是我们尚未发现的。

米斯·哈萨比斯最近讲道：“真正的智能远远不只是深度学习所擅长的感知分类，我们必须对其进行重新组合，形成更高级的思考和符号推理，也就是20世纪80年代经典人工智能试图解决的那些问题。”33要获得适用范围更广的AI，我们必须将许多不同的工具组织在一起，有些是老旧的，有些是崭新的，还有一些是我们尚未发现的。

．人类思想和语言是由成分组成的

这些结论的基础之上，欣顿尝试着将这一观点进行泛化。与其用复杂的树形图来表征句子和思想，不如用向量来表征思想，因为复杂的树形图与神经网络之间的互动并不理想。

[插图]
句法树形图
在这个框架中，句子中的每个成分都有自己的位置。我们很容易将不同的句子区分开来，并确定句中元素之间的关系，就算两个句子共享大部分或全部单词也没问题。深度学习在没有这种高度结构化句子表征的情况下工作，往往会在处理细微差别时遇到问题。
例如，情绪分析器是利用深度学习实现的系统，将句子语气分类为积极或消极。每个句子都被转换成一个向量。研究人员的想法是将积极的句子（“好喜欢！”）由一组聚为一处的向量表示，消极的句子（“好讨厌！”）由另一组聚于另一处的向量表示。每当出现一个新句子时，简单来说，系统只需测试这个句子是更接近于正向量集还是负向量集。

世界的鲁棒理解，既需要自上向下的信息，也需要自下而上的信息

认知心理学家将知识分为两类：自下而上的信息，是直接来自我们感官的信息；还有自上而下的知识，是我们对世界的先验知识，

语言学的专业术语来说，语言往往是“部分指定的”（underspecified），也就是说，我们不会将想要表达的意思全部说出来，相反，我们会将大部分意思融入上下文，因为若要将所有内容说得一清二楚，永远也说不完。45

概念嵌于理论之中

没有哪个事实是一座孤岛。通用人工智能若想获得成功，就需要将获取到的事实嵌入到更加丰富的、能帮助将这些事实组织起来的高层级理论之中。49

我们针对逐个的人和事件进行跟进

．复杂的认知生物体并非白板一块

机器赋予常识

◆ 第7章常识，实现深度理解的关键

为了实现进步，我们需要从两件事做起：一是对通用人工智能应该具备什么样的知识进行盘点，二是理解如何在机器内部以一种独立的方式清晰而明确地表征这些知识。13

如果我们只能有三个知识框架，那么我们就会极大地仰仗于康德《纯粹理性批判》的核心主题，该主题从哲学视角出发，认为时间、空间和因果关系是基础。21将这些理论建立在坚实的计算基础之上，是向前发展的关键所在。

让推理步入正轨，找到正确的方式来对知识进行表征，专注于正确的领域，如时间、空间和知识，都是解决方案的一部分，也可以帮助我们达到丰富认知模型和深度理解的目标，这些正是改变AI范式最急需的东西

为了让理想变成现实，我们还需要从根本上重新思考学习是如何进行的。我们需要创造出一种能利用上现有知识的全新学习方式，而不是每遇到一个领域，都要固执地从零开始。当下的机器学习领域，目标与此恰恰相反。研究人员和工程师总是将关注点集中在特定的窄任务上，想要从一张白纸开始，凭借一己之力把事情做成。人们心存美好的幻想，盼着有一个魔法系统（根本不存在），最终能通过观看YouTube视频便学会所有需要了解的一切，而无须事先掌握任何知识。但是，我们找不到任何证据来证明这个幻想可能成真，整个领域也没有朝着这个方向有所进步。这种说法充其量不过是个空头支票——现在的AI视频理解，太过粗糙、太不精确。

我们需要的不是每件事都要从头学起的白板，也不是为每一个可能构想出来的紧急情况都事先做好精准到全部细节的系统，而是在强健的先天基础之上，精心构建而出的混合模型，允许系统在概念和因果层面上学习新事物；我们需要的是能够对理论进行学习，而不仅仅是对孤立事实进行学习的系统

时间空间因果关系

简而言之，我们给出的实现常识并最终实现通用人工智能的方案如下：首先开发出能够表征人类知识核心框架的系统——时间、空间、因果关系、关于物理对象及其相互作用的基本知识、关于人类及其互动的基本知识。将这些内容嵌入可以自由扩展到各种知识的架构之中，始终牢记抽象、组合性和个体跟踪的核心原则。开发出强大的推理技术，可以处理复杂、不确定和不完整的知识，并可以自上而下和自下而上地自由工作。将这些内容与感知、操作和语言联系起来。利用这些去构建关于世界的丰富的认知模型。最后的重点是：受人类心智的启发，构建一种学习系统，利用人工智能拥有的全部知识和认知能力；能将其学到的知识融入先验知识之中；就像孩子一样，从每一个可能存在的信息来源中如饥似渴地学习——与世界互动，与人互动，阅读，观看视频，甚至是得到直接教导。将所有这些都融为一体，我们就能到达深度理解的境界。

简而言之，我们给出的实现常识并最终实现通用人工智能的方案如下：首先开发出能够表征人类知识核心框架的系统——时间、空间、因果关系、关于物理对象及其相互作用的基本知识、关于人类及其互动的基本知识。将这些内容嵌入可以自由扩展到各种知识的架构之中，始终牢记抽象、组合性和个体跟踪的核心原则。开发出强大的推理技术，可以处理复杂、不确定和不完整的知识，并可以自上而下和自下而上地自由工作。将这些内容与感知、操作和语言联系起来。利用这些去构建关于世界的丰富的认知模型。最后的重点是：受人类心智的启发，构建一种学习系统，利用人工智能拥有的全部知识和认知能力；能将其学到的知识融入先验知识之中；就像孩子一样，从每一个可能存在的信息来源中如饥似渴地学习——与世界互动，与人互动，阅读，观看视频，甚至是得到直接教导。将所有这些都融为一体，我们就能到达深度理解的境界。

◆ 第8章创造可信的AI

人们之所以对深度学习心怀担忧，其中一个原因就在于，与传统的计算机编程相比，深度学习在很多方面更像是药理学。从事深度学习的人工智能科学家，大体上能理解为什么经过大量样本训练的网络可以在新问题上模仿这些样本。但是，针对特定问题选定的网络设计还远远不是一门精确的科学，更多是由实验而不是理论来指导。只要这个网络经过训练去执行任务，其工作过程就变得非常神秘。最终我们得到的是一个复杂的节点网络，其行为由数亿的数值参数来决定。22除了极其罕见的情况之外，构建网络的人都不了解其中单个节点的功能，不明白为什么其中任意一个参数具有特定的值。关于系统为什么会在正确运行时得到正确答案，在错误运行时出现错误答案，完全没有明确的解释。如果系统不能正常工作，那么若想解决问题，就只能不断试错，要么对网络体系结构进行微调，要么构建起更好的训练数据库。出于这个原因，机器学习研究和公共政策领域最近都在大力提倡“可解释的人工智能”，但目前还没有产生明确的成果

◆ 点评

认为一般
清醒剂

打赏作者