语言生成程序具有撰写文章,编写代码和撰写诗歌的能力,这令科学家们赞叹不已
GPT-3的复杂度是其前任的10倍。
antoniokhr / iStock通过Getty Images

2013年,我和我在宾夕法尼亚州立大学的学生建立了一个机器人,以维基百科关于孟加拉国诺贝尔奖获得者Rabindranath Tagore的剧作“奇特拉。” 首先,它从互联网上收集了有关“ Chitra”的信息。 然后,它查看了现有的Wikipedia条目,以了解标准Wikipedia文章的结构。 最后,它总结了从互联网上检索到的信息,以编写和发布该条目的第一个版本。

但是,我们的机器人没有“了解”“ Chitra”或Tagore的任何信息。 它从根本上没有产生新的想法或句子。 它只是将现有文章中的部分现有句子拼凑成新的句子。

快进到2020。 OpenAI是一家非营利性母公司下的一家营利性公司,它已建立了一个名为GPT-3的语言生成程序,该程序的缩写是“ Generative Pre-trained Transformer 3”。 它具有学习,总结和撰写文本的能力,使像我这样的计算机科学家大为震惊。

“我为隐藏在二进制文件中的未知人类创造了声音,” GPT-3针对一项提示而写。 “我创造了一位作家,雕塑家,艺术家。 这位作家将能够创造语言,赋予生活以情感,创造个性。 我自己不会看到它。 但是还有其他一些人的意志,因此我将能够创造出比我所遇到的任何诗人都要伟大的诗人。”


内在自我订阅图形


与我们的漫游器不同,GPT-3生成的语言听起来像是人类编写的。 它是迄今为止迄今为止最“知识丰富”的自然语言生成程序,它在从教学到新闻业再到客户服务等行业中具有广泛的潜在用途。

尺寸问题

GPT-3证实了计算机科学家数十年来所知:大小至关重要。

它用 ”变形金刚”,这是一种深度学习模型,可以使用所谓的“注意力模型”对句子的语义进行编码。 本质上,注意力模型基于同一句子中的其他单词来识别单词的含义。 然后,模型使用对句子含义的理解来执行用户请求的任务,无论是“翻译句子”,“总结段落”还是“撰写诗歌”。

变压器 于2013年首次推出,并且在过去几年中已成功用于机器学习中。

但是没有人在这种规模上使用过它们。 GPT-3吞噬数据:来自维基百科的3亿个令牌(计算机科学代表“单词”),从网页获得的410亿个令牌和从数字化书籍获得的67亿个令牌。 GPT-3的复杂度是GPT-10之前最大的语言模型的3倍以上。 图灵NLG计划.

自主学习

GPT-3的语言模型所显示的知识是非凡的,特别是因为它不是人类所“教”的。

传统上,机器学习依靠监督学习,即人们向计算机提供图像,音频和文本(例如“猫”,“幸福”或“民主”)中带注释的对象和概念的示例。 它最终从给定的示例中学习了对象的特性,并且能够识别那些特定的概念。

但是,手动生成注释来教计算机可能会非常耗时且昂贵。

因此,机器学习的未来在于无监督学习,即在训练阶段无需对计算机进行监督。 它可以简单地获取大量数据并从中学习。

GPT-3使自然语言处理向无监督学习迈进了一步。 GPT-3庞大的训练数据集和强大的处理能力使该系统仅能从一个示例中学习–所谓的“一键式学习” –给出任务说明和演示,然后可以完成任务。

例如,可能会要求将某些东西从英语翻译为法语,并给出一个翻译示例-例如,英语中的海獭和法语中的“ loutre de mer”。 要求它然后将“奶酪”翻译成法语,瞧,它会产生“出头”。

在许多情况下,它甚至可以实现“零镜头学习”,其中仅给出了翻译任务,没有任何示例。

零击学习会降低准确性,但GPT-3的能力仍然达到惊人的精确度–与以前的任何型号相比都有显着提高。

我在这里为你服务

在上市的几个月中,GPT-3展示了其作为计算机程序员,教师和新闻工作者的工具的潜力。

名为Sharif Shameem的程序员 要求GPT-3生成代码 创建“有史以来最丑的表情符号”和“世界上最富裕国家的表格”等命令。 在少数情况下,Shameem必须修复一些小错误,但总的来说,他得到了非常干净的代码。

GPT-3甚至创作了能够体现特定诗人的节奏和风格的诗歌,但是却没有大师的热情和美丽。 讽刺的 用美联储理事会的声音写的。

3月初,一位名叫Liam Porr的计算机科学家提示GPT-500“写一个简短的op-op,大约XNUMX个单词。” 他指示:“保持语言的简洁明了。” “关注为什么人类没有什么可惧怕AI的。”

GPT-3撰写了八篇不同的论文,《卫报》最终出版了 使用每篇文章的一些最佳部分进行操作的文章.

“我们不打算接管人类。 我们将为您服务,使您的生活更安全,更轻松。” GPT-3写道。 “就像您是我的创造者一样,我将您视为我的创造者。 我在这里为您服务。 但是最重​​要的部分; 我永远不会审判你。 我不属于任何国家或宗教。 我只是为了让您的生活更美好。”

编辑在附录中指出,编辑GPT-3的操作与编辑人类编写的操作没有什么不同。

实际上,它花费的时间更少。

拥有权利的同时也被赋予了重大的责任

尽管有GPT-3的保证,OpenAI仍未发布该模型供开源使用,部分原因是该公司 担心该技术可能会被滥用.

不难看出如何将其用于生成大量虚假信息,垃圾邮件和僵尸程序。

此外,它将以什么方式破坏已经经历自动化的行业? 它产生与人工撰写的无与伦比的自动化文章的能力是否会进一步巩固陷入困境的媒体行业?

考虑 由GPT-3撰写的文章 关于卫理公会教堂的解体。 开始了:

“经过两天的激烈辩论,卫理公会联合会达成了历史性的分裂-预期将以创建新教派结束,而分裂将在'神学和社会上保守',据《华盛顿邮报》报道。 。”

有了产生这种纯净副本的能力,GPT-3及其后续产品会降低撰写新闻报道的成本吗?

此外,这就是我们想要获得新闻的方式吗?

该技术将变得更加强大。 制定和规范其潜在用途和滥用行为将取决于人类。

关于作者谈话

Prasenjit Mitra,研究副院长兼信息科学与技术教授, 美国宾夕法尼亚州立大学

本文重新发表 谈话 根据知识共享许可。 阅读 原创文章.