Shutterstock/Valentyn640

1956 年,20 岁出头的数学家和理论生物学家杰克·D·考恩 (Jack D. Cowan) 在为期一年的伦敦之旅中拜访了威尔弗雷德·泰勒 (Wilfred Taylor) 和他的奇怪新“学习机”。当他到达时,他对面前的“大量设备”感到困惑。考恩只能袖手旁观,看着“机器做它的事”。它似乎正在做的事情是执行“联想记忆方案”——它似乎能够学习如何找到联系并检索数据。

它可能看起来像是笨重的电路块,通过大量电线和盒子手工焊接在一起,但考恩亲眼目睹的是神经网络的早期模拟形式——这是当今最先进的人工智能的先驱,包括讨论很多 ChatGPT 具有响应几乎任何命令生成书面内容的能力。 ChatGPT 的底层技术是神经网络。

当考恩和泰勒站着看着机器工作时,他们真的不知道它是如何完成这项任务的。泰勒神秘的机器大脑的答案可以在它的“模拟神经元”的某个地方找到,在它的机器记忆所形成的关联中,最重要的是,在它的自动化功能无法真正被完全解释的事实中。这些系统需要几十年的时间才能找到它们的用途并释放其力量。

神经网络这个术语包含了广泛的系统,但集中的是, 根据IBM,这些“神经网络——也称为人工神经网络(ANN)或模拟神经网络(SNN)——是机器学习的一个子集,是深度学习算法的核心”。至关重要的是,该术语本身及其形式和“结构受到人脑的启发,模仿生物神经元相互发送信号的方式”。

在最初阶段,人们可能对其价值还存有一些怀疑,但随着时间的推移,人工智能时尚已经坚定地转向神经网络。它们现在通常被认为是人工智能的未来。它们对我们以及人类的意义具有重大意义。我们听说过 最近这些担忧的回声 呼吁暂停新的人工智能开发六个月,以确保对其影响的信心。


内在自我订阅图形


如果认为神经网络仅仅与光鲜亮丽、引人注目的新玩意有关,那肯定是错误的。它们已经在我们的生活中扎根了。有些实用性很强。早在 1989 年,AT&T 贝尔实验室的 Yann LeCun 领导的团队就使用反向传播技术来训练系统 识别手写邮政编码。 最近的 微软的公告 Bing 搜索将由人工智能提供支持,使其成为“网络副驾驶”,这说明我们发现的事物以及我们如何理解它们将越来越成为这种自动化的产物。

利用大量数据来寻找模式人工智能同样可以被训练来快速执行图像识别等任务,从而将它们纳入到 面部识别, 例如。这种识别模式的能力催生了许多其他应用,例如 预测股市.

神经网络也正在改变我们解释和交流的方式。由有趣的标题开发 谷歌大脑团队, 谷歌翻译 是神经网络的另一个突出应用。

您也不会想与其中之一下国际象棋或将棋。他们对规则的掌握以及对策略和所有记录的走法的回忆意味着他们非常擅长游戏(尽管 ChatGPT 似乎 与 Wordle 的斗争)。困扰人类围棋棋手(围棋是出了名的棘手策略棋盘游戏)和国际象棋大师的系统是 由神经网络制成.

但他们的影响力远远超出了这些实例,并且还在继续扩大。仅限于提及确切短语“神经网络”的专利检索会产生 135,828 个结果。随着这种快速且持续的扩张,我们能够充分解释人工智能影响的机会可能会变得越来越渺茫。这些是我在研究中一直在研究的问题 和我关于算法思维的新书.

神秘的“不可知性”层

回顾神经网络的历史告诉我们一些关于自动化决策的重要信息,这些决策定义了我们的现在或可能在未来产生更深远的影响。他们的存在还告诉我们,随着时间的推移,我们对人工智能的决策和影响的了解可能会更少。这些系统不仅仅是黑匣子,它们不仅仅是系统中无法看到或理解的隐藏部分。

这是不同的东西,植根于这些系统本身的目标和设计的东西。人们对无法解释的事物有着长期的追求。越不透明,系统就被认为越真实和先进。这不仅仅是系统变得更加复杂或知识产权控制限制访问(尽管这些是其中的一部分)。相反,这就是说,驱动它们的精神对“不可知性”有着特殊而内在的兴趣。这个谜团甚至被编码到神经网络的形式和话语中。它们具有深深的堆积层——因此有了“深度学习”这个词——而在这些深度中是听起来更神秘的“隐藏层”。这些系统的奥秘深藏在表面之下。

人工智能对我们的生活产生的影响越大,我们就越不了解它是如何产生的以及为什么产生这种影响。如今,人工智能的发展势头强劲,这是可以解释的。我们想知道它是如何运作的以及它如何做出决策和结果。欧盟非常担心潜在的“不可接受的风险”甚至“危险”的应用,因此目前正在推进 新的人工智能法案 旨在为“发展安全、值得信赖和道德的人工智能”制定“全球标准”。

这些新法律将基于可解释性的需要, 要求 “对于高风险的人工智能系统,高质量数据、记录和可追溯性、透明度、人工监督、准确性和稳健性的要求对于减轻人工智能对基本权利和安全构成的风险是绝对必要的”。这不仅仅是像自动驾驶汽车这样的事情(尽管确保安全的系统属于欧盟的高风险人工智能类别),人们还担心未来出现的系统会对人权产生影响。

这是更广泛呼吁人工智能透明度的一部分,以便其活动可以被检查、审计和评估。另一个例子是英国皇家学会 关于可解释人工智能的政策简报 他们在其中指出,“世界各地的政策辩论越来越多地呼吁某种形式的人工智能可解释性,作为将道德原则嵌入到人工智能系统的设计和部署中的努力的一部分”。

但神经网络的故事告诉我们,未来我们可能会离这个目标更远,而不是更接近。

受到人类大脑的启发

这些神经网络可能是复杂的系统,但它们有一些核心原理。受到人类大脑的启发,他们寻求复制或模拟生物和人类思维的形式。在结构和设计方面,它们是: IBM 还解释说,由“节点层,包含输入层、一个或多个隐藏层和输出层”组成。其中,“每个节点或人工神经元都连接到另一个”。因为它们需要输入和信息来创建输出,所以它们“依靠训练数据来学习并随着时间的推移提高其准确性”。这些技术细节很重要,但根据人脑的复杂性对这些系统进行建模的愿望也很重要。

掌握这些系统背后的雄心对于理解这些技术细节在实践中的意义至关重要。在一个 1993采访神经网络科学家 Teuvo Kohonen 得出结论,“自组织”系统“是我的梦想”,其运行“类似于我们的神经系统本能地做的事情”。作为一个例子,科霍宁描绘了一个“自组织”系统,一个自我监控和管理的系统,“可以用作任何机器的监控面板......在每架飞机、喷气式飞机、或每个核电站、或每个车”。他认为,这意味着将来“你可以立即看到系统处于什么状态”。

首要目标是拥有一个能够适应周围环境的系统。它将是即时的、自主的,以神经系统的方式运作。那是一个梦想,拥有能够自我处理而无需太多人为干预的系统。大脑、神经系统和现实世界的复杂性和未知性很快就会影响神经网络的开发和设计。

“这件事有些可疑”

但回到 1956 年,那台奇怪的学习机,泰勒在建造它时所采取的实践方法立即引起了考恩的注意。显然,他在组装这些零碎的东西时付出了很大的努力。泰勒, 考恩观察到 在接受采访时,他自己讲述了这些系统的故事,“他没有通过理论做到这一点,也没有在计算机上做到这一点”。相反,有了手中的工具,他“实际上构建了硬件”。它是一个物质的东西,是零件的组合,甚至可能是一个装置。考恩指出,这一切“都是用模拟电路完成的”,泰勒花了“几年的时间来构建和使用它”。一个反复试验的案例。

可以理解的是,考恩想要掌握他所看到的一切。他试图让泰勒向他解释这个学习机器。澄清没有到来。考恩无法让泰勒向他描述这东西是如何工作的。模拟神经元仍然是一个谜。考恩认为,更令人惊讶的问题是泰勒“自己并不真正了解发生了什么”。这不仅仅是两位不同专业科学家之间沟通的暂时中断,而且还不止于此。

1990世纪XNUMX年代中期的采访回想起泰勒的机器,考恩透露,“直到今天,在已发表的论文中,你还不能完全理解它是如何工作的”。这个结论暗示了未知是如何深深嵌入神经网络中的。这些神经系统的不可解释性甚至从近七十年前的基础和发展阶段就已经存在。

这个谜团至今仍然存在,并且可以在先进的人工智能形式中找到。泰勒的机器所产生的联想功能的深不可测,让考恩怀疑其中是否有“可疑的地方”。

长而纠结的根

当被问及几年后他自己的作品受到的欢迎时,考恩回顾了他与泰勒的短暂访问。考恩反映,进入 1960 世纪 1950 年代,人们“有点迟钝地认识到模拟神经网络的意义”。考恩回忆道,尽管如此,泰勒在 XNUMX 世纪 XNUMX 年代关于“联想记忆”的工作是基于“模拟神经元”的。诺贝尔奖获得者神经系统专家, 莱昂·库珀 (Leon N. Cooper) 总结 1960 世纪 XNUMX 年代大脑模型应用的发展被视为“深奥的谜团”。由于这种不确定性,人们仍然对神经网络可能实现的目标持怀疑态度。但事情慢慢开始发生变化。

大约 30 年前,神经科学家沃尔特·J·弗里曼 (Walter J. Freeman) 对“卓越神经网络的一系列应用已经被发现,他已经评论了这样一个事实:他并不认为它们是“一种全新的机器”。它们是一个缓慢的过程,首先技术出现,然后才找到它的后续应用。这需要时间。事实上,为了找到神经网络技术的根源,我们可能会追溯到比考恩参观泰勒神秘机器更远的地方。

神经网络科学家詹姆斯·安德森和科学记者爱德华·罗森菲尔德 已经注意到了 神经网络的背景可以追溯到 1940 世纪 1940 年代,正如他们所描述的,一些早期的尝试是“理解人类神经系统并构建至少有一点像我们一样行事的人工系统”。于是,在XNUMX世纪XNUMX年代,人类神经系统的奥秘也成为了计算思维和人工智能的奥秘。

计算机科学作家总结了这个长篇故事 拉里·哈迪斯蒂指出 神经网络形式的深度学习“70多年来一直流行又过时”。他补充道,更具体地说,这些“神经网络是由芝加哥大学的两位研究人员 Warren McCulloch 和 Walter Pitts 于 1944 年首次提出的,他们于 1952 年搬到麻省理工学院,成为有时被称为第一个认知科学系的创始成员”。

别处, 1943 有时是作为技术第一年的给定日期。不管怎样,大约 70 年来的记录表明,神经网络时而流行,时而不再流行,常常被忽视,但有时又会占据主导地位,并进入更主流的应用和辩论。不确定性依然存在。这些早期的开发者经常描述他们的研究的重要性被忽视,直到几年甚至几十年后才发现其目的。

从 1960 世纪 1970 年代到 1986 年代末,我们可以找到有关这些系统的未知特性的更多故事。即便如此,三十年后,神经网络仍然要寻找目标感。 David Rumelhart 拥有心理学背景,是 XNUMX 年出版的一套书籍的合著者,这些书籍后来将人们的注意力重新带回了神经网络,他发现自己正在合作开发神经网络 和他的同事杰·麦克莱兰.

除了作为同事,他们最近还在明尼苏达州的一次会议上相遇,鲁梅尔哈特关于“故事理解”的演讲引起了代表们的一些讨论。

在那次会议之后,麦克莱兰回来了,他思考了如何开发一个可以组合模型以提高交互性的神经网络。这里重要的是 鲁梅尔哈特的回忆 “在计算机上进行数小时的修修补补”。

我们坐下来,在计算机上完成了所有这些工作并建立了这些计算机模型,但我们只是不理解它们。我们不明白它们为什么有效,为什么不起作用,或者它们的关键之处是什么。

和泰勒一样,鲁梅尔哈特发现自己也在修改这个系统。他们也创建了一个功能正常的神经网络,最重要的是,他们也不确定它如何或为何以这种方式工作,似乎是从数据中学习并寻找关联。

一层又一层地模仿大脑

您可能已经注意到,在讨论神经网络的起源时,大脑的图像及其所引起的复杂性永远不会远离。人脑充当了这些系统的某种模板。特别是在早期阶段,大脑——仍然是一个巨大的未知数——成为神经网络如何运作的模型。

因此,这些实验性新系统是以某种东西为模型的,而这些东西的功能本身在很大程度上是未知的。神经计算工程师卡弗·米德 已经透露了 他发现“认知冰山”的概念特别有吸引力。这只是我们意识到并且可见的意识冰山一角。地表以下其余部分的规模和形式仍然未知。

1998年, 詹姆斯·安德森曾在神经网络领域工作了一段时间,他指出,当谈到大脑研究时,“我们的主要发现似乎是意识到我们真的不知道正在发生什么”。

在详细的账目中 2018年金融时报科技记者理查德·沃特斯(Richard Waters)指出,神经网络“是如何根据人类大脑如何运作的理论进行建模的,通过人工神经元层传递数据,直到出现可识别的模式”。沃特斯提出,这会产生连锁问题,因为“与传统软件程序中使用的逻辑电路不同,没有办法跟踪这个过程来准确识别计算机给出特定答案的原因”。沃特斯的结论是,这些结果是无法改变的。应用这种类型的大脑模型,通过多层获取数据,意味着答案无法轻易追溯。多层是造成这种情况的一个重要原因。

坚硬 还观察到这些系统“松散地模仿了人脑”。这带来了建立更多处理复杂性的渴望,以便尝试与大脑匹配。这一目标的结果是一个神经网络,“由数千甚至数百万个紧密互连的简单处理节点组成”。数据仅沿一个方向通过这些节点。 Hardesty 观察到,“单个节点可能会连接到其下层中的多个节点(它从中接收数据),以及连接到其上层中的多个节点(它会向其发送数据)”。

人脑模型是这些神经网络从一开始就被构思和设计的一部分。当我们考虑到大脑本身就是当时的一个谜(并且在很多方面仍然是)时,这一点尤其有趣。

“适应就是整个游戏”

米德和科霍宁等科学家希望创建一个能够真正适应其所处世界的系统。它会对其条件做出反应。米德很清楚,神经网络的价值在于它们可以促进这种类型的适应。当时,反思这个雄心壮志, 米德补充道 制作改编“就是整个游戏”。他认为,这种适应是必要的,“因为现实世界的本质”,他的结论是“变化太大,无法做任何绝对的事情”。

他认为,这个问题尤其需要考虑,因为这是“神经系统很久以前就发现的”。这些创新者不仅研究大脑的图像及其未知因素,还将其与“现实世界”的愿景以及由此带来的不确定性、未知性和可变性结合起来。米德认为,系统需要能够响应并适应环境 也完全不需要 指令。

大约在 1990 世纪 XNUMX 年代的同一时间,斯蒂芬·格罗斯伯格(Stephen Grossberg)——一位跨数学、心理学和生物医学工程的认知系统专家—— 还认为 从长远来看,适应将是重要的一步。格罗斯伯格在致力于神经网络建模时,心想这一切都是“如何设计生物测量和控制系统以快速、稳定地实时适应快速波动的世界”。正如我们之前在 Kohonen 的“自组织”系统的“梦想”中看到的那样,“现实世界”的概念成为将响应和适应编码到这些系统中的背景。如何理解和想象现实世界无疑决定了这些系统如何设计以适应。

隐藏层

随着层次的增加,深度学习探索了新的深度。神经网络使用训练数据进行训练, 哈迪斯蒂解释道,“被馈送到底层——输入层——并通过后续层,以复杂的方式相乘和相加,直到最终到达经过彻底转换的输出层”。层数越多,变换越大,输入到输出的距离也越大。 Hardesty 补充道,以游戏为例,图形处理单元 (GPU) 的发展“使 1960 世纪 1980 年代的单层网络和 15 年代的两到三层网络发展为 50、XNUMX 甚至 XNUMX 层网络”。今天的层网络”。

神经网络越来越深入。事实上,根据 Hardesty 的说法,这种层的添加就是“‘深度学习’中的‘深度’所指的”。他认为,这一点很重要,因为“目前,深度学习在人工智能研究的几乎每个领域都构建了性能最佳的系统”。

但谜团却变得更深了。随着神经网络的层数越来越高,其复杂性也随之增加。它还导致了这些深度内所谓的“隐藏层”的增长。关于神经网络中隐藏层的最佳数量的讨论正在进行中。媒介理论家 比阿特丽斯·法齐写道 “由于深度神经网络的运行方式依赖于夹在第一层神经元(输入层)和最后一层(输出层)之间的隐藏神经层,深度学习技术通常是不透明或难以辨认的,甚至对于普通人来说也是如此。最初设置它们的程序员”。

随着层数的增加(包括那些隐藏层),它们变得更加难以解释——即使对于那些创建它们的人来说也是如此。著名的跨学科新媒体思想家凯瑟琳·海尔斯也提出了类似的观点 还注意到 “我们对系统了解多少,与神经网络和深度学习算法中的‘隐藏层’相关的结果”是有限的。

追寻无法解释的事

总而言之,这些长期发展是技术社会学家研究的一部分。 泰娜·布赫 被称为“未知的问题”。哈里·柯林斯 (Harry Collins) 将其对科学知识有影响力的研究扩展到人工智能领域 已经指出 神经网络的目标是它们可以由人类生成,至少在最初是这样,但是“一旦编写,程序就会有自己的生命;如果不付出巨大的努力,该程序到底是如何运作的仍然是个谜”。这与人们长期以来对自组织系统的梦想相呼应。

我想补充一点,未知的,甚至可能是不可知的,从最初阶段起就被视为这些系统的基本组成部分。人工智能对我们的生活产生的影响越大,我们就越不了解它是如何产生的以及为什么产生这种影响。

但如今许多人对此并不认同。我们想知道人工智能是如何工作的,以及它如何做出影响我们的决策和结果。随着人工智能的发展继续塑造我们对世界的认识和理解,我们发现什么,我们如何被对待,我们如何学习、消费和互动,这种理解的冲动将会增长。当谈到可解释和透明的人工智能时,神经网络的故事告诉我们,未来我们可能会离这个目标更远,而不是更接近。

大卫·比尔,社会学教授, 约克大学

本文重新发表 谈话 根据知识共享许可。 阅读 原创文章.