1750亿参数,史上最⼤AI模型GPT-3上线:不仅会写⽂章、答
题,还懂数学
「我们训练了 GPT-3,⼀种具有 1750 亿参数的⾃回归语⾔模型,这个数字⽐以往任何⾮稀疏语⾔模型都多 10 倍。我们在few-shot 情况下测试了它的性能。」
本周五,OpenAI 提出的 GPT-3 在社交⽹络上掀起了新⼀阵风潮。它的参数量要⽐ 2 ⽉份刚刚推出的、全球最⼤深度学习模型Turing NLP ⼤上⼗倍,⽽且不仅可以更好地答题、翻译、写⽂章,还带有⼀些数学计算的能⼒。这样强⼤的深度学习,不禁让⼈产⽣⼀种错觉:真正的 AI 要来了吗?
⾸先,GPT-3 最令⼈惊讶的还是模型体量,它使⽤的最⼤数据集在处理前容量达到了 45TB。根据 OpenAI 的算⼒统计单位
petaflops/s-days,训练 AlphaGoZero 需要 1800-2000pfs-day,⽽ OpenAI 刚刚提出的 GPT-3 ⽤了 3640pfs-day,看来的OpenAI,现在真的是为所欲为了。
研究者们希望 GPT-3 能够成为更通⽤化的 NLP 模型,解决当前 BERT 等模型的两个不⾜之处:对领域内有标记数据的过分依赖,以及对于领域数据分布的过拟合。GPT-3 致⼒于能够使⽤更少的特定领域,不做 fine-tuning 解决问题。
不过上传的没有那么快其实情有可原,在 issue ⾥有⼈道出了真相:参数这么多,如果按照 GPT-2 ⼗五亿参数等于 6G 这么算的话,GPT-3 模型可能要 700G,⽼硬盘还装不下,不是正常⼈能玩的转的。
2019 年 3 ⽉机器学习先驱,阿尔伯塔⼤学教授 Richard S. Sutton 著名的⽂章《》⾥开篇就曾说道:「70 年的⼈⼯智能研究史告诉我们,利⽤计算能⼒的⼀般⽅法最终是最有效的⽅法。」
GPT-3 的提出或许会让开发者落泪,⼤学⽼师沉默,黄仁勋感到肩上担⼦更重了。还记得⼏周前刚刚结束的 GTC 2020 吗,英伟达CEO 的 Keynote 上有⼀页讲最近⼏年来⼈⼯智能领域⾥最⼤的深度学习模型:
英伟达表⽰,⾃ 2017 年底发布 Tesla V100 之后,训练最⼤模型的算⼒需求增长了 3000 倍。在这⾥⾯ GPT-2 也不在最⾼的位置了,微软今年 2 ⽉推出的 Turing NLG(170 亿参数)、英伟达的 Megatron-BERT(80 亿参数)排名前列。GPT-3 要放进这个表⾥,尺度表还要再向上挪⼀挪。
另有⽹友吐槽,GPT-3 共 72 页的论⽂长度也令⼈绝望:
下⼀次更⼤的模型,论⽂长度怕不是要破百了。
不过巨⼤的参数量带来的⽂本⽣成效果也是颇为可观的,让我们来看看 GPT-3 究竟能不能实现写新闻
、写⼩说,甚⾄写论⽂的能⼒吧。
GPT-3:我是 GPT-2 的「究极进化版」
2019 年初,OpenAI 发布了通⽤语⾔模型 ,能够⽣成连贯的⽂本段落,在许多语⾔建模基准上取得了 SOTA 性能。这⼀基于Transformer 的⼤型语⾔模型共包含 15 亿参数、在⼀个 800 万⽹页数据集上训练⽽成。GPT-2 是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进⾏训练,参数量也多出了 10 倍。
老车改装然⽽,长江后浪推前浪。昨⽇,OpenAI 发布 GPT-3 模型,1750 亿参数量,⾜⾜是 GPT-2 的 116 倍。
GPT-3 的论⽂作者多达 31 ⼈,来⾃ OpenAI、约翰霍普⾦斯⼤学的 Dario Amodei 等研究⼈员证明了在 GPT-3 中,对于所有任务,模型⽆需进⾏任何梯度更新或微调,⽽仅通过与模型的⽂本交互指定任务和少量⽰例即可获得很好的效果。
GPT-3 在许多 NLP 数据集上均具有出⾊的性能,包括翻译、问答和⽂本填空任务,这还包括⼀些需要即时推理或领域适应的任务,例如给⼀句话中的单词替换成同义词,或执⾏ 3 位数的数学运算。8万元左右买什么车好
当然,GPT-3 也可以⽣成新闻报道的样本,我们很难将机器写的⽂章与⼈类写的区分开来。
新闻⽣成
据《华盛顿邮报》报道,经过两天的激烈辩论,联合卫理公会同意了⼀次历史性的分裂:要么创⽴新教派,要么则在神学和社会意义上⾛向保守。⼤部分参加五⽉份教会年度会议的代表投票赞成加强任命 LGBTQ 神职⼈员的禁令,并制定新的规则「惩戒」主持同性婚礼的神职⼈员。但是反对这些措施的⼈有⼀个新计划:2020 年他们将形成⼀个新教派「基督教卫理公会」。
《华盛顿邮报》指出,联合卫理公会是⼀个⾃称拥有 1250 万会员的组织,在 20 世纪初期是「美国最⼤的新教教派」,但是近⼏⼗年来它⼀直在萎缩。这次新的分裂将是该教会历史上的第⼆次分裂。第⼀次发⽣在 1968 年,当时⼤概只剩下 10% 的成员组成了「福⾳联合弟兄会」。《华盛顿邮报》指出,⽬前提出的分裂「对于多年来成员不断流失的联合卫理公会⽽⾔,来得正是时候」,这「在 LGBTQ ⾓⾊问题上将该教派推向了分裂边缘」。同性婚姻并不是分裂该教会的唯⼀问题。2016 年,该教派因跨性别神职⼈员的任命⽽分裂。北太平洋地区会议投票禁⽌他们担任神职⼈员,⽽南太平洋地区会议投票允许他们担任神职⼈员。
这确定不是报刊记者撰写的短新闻吗?
GPT-3 ⽤实⼒告诉你答案:不是。奇瑞qq自动挡
给出标题「联合卫理公会同意这⼀历史性分裂」和⼦标题「反对同性恋婚姻的⼈将创建⾃⼰的教派」,GPT-3 ⽣成了上述新闻。
就问你能不能看出来?反正我认输……
在 OpenAI 的测试中,⼈类评估⼈员也很难判断出这篇新闻的真假,检测准确率仅为 12%。
不过,GPT-3 也有失⼿的时候。⽐如对于 GPT-3 ⽣成的下列短⽂,⼈类判断真伪的准确率达到了 61%!
根据 OpenAI 的统计,⼈类对 GPT-3 175B 模型⽣成的约 500 词⽂章的判断准确率为 52%,不过相⽐于 GPT-3 control 模型(没有语境和不断增加的输出随机性且只具备 1.6 亿参数的模型),GPT-3 175B ⽣成的⽂本质量要⾼得多。果然很暴⼒啊!
好顺
「⽛⽛学语」,GPT-3 的造句能⼒
给出⼀个新单词及其定义,造出⼀个新句⼦。难吗?这需要你理解单词的意义及适⽤语境。OpenAI 研究者测试了 GPT-3 在这⼀任务上的能⼒:给出⼀个不存在的单词(如「Gigamuru」),令 GPT-3 使⽤它造句。
我们来看 GPT-3 的⽣成结果:
给出新单词「Gigamuru」(表⽰⼀种⽇本乐器)。
北京二手汽车
GPT-3 给出的句⼦是:叔叔送了我⼀把 Gigamuru,我喜欢在家弹奏它。
严丝合缝,⾮常合理,完美!
再看⼀个动词例⼦:
给出新单词「screeg」(挥剑,击剑)。
GPT-3 造出的句⼦是:我们玩了⼏分钟击剑,然后出门吃冰淇淋。
也还不错。
接下来,我们再来看 GPT-3 的其他能⼒。
语法纠错
给出⼀句带有语法错误的话,让 GPT-3 进⾏修改。
第⼀个例⼦中,原句⾥有两个并列的动词「was」和「died」,GPT-3 删除系动词「was」,将其修改为正确的句⼦。
奔驰glc300l新车报价2022款图片
第⼆个例⼦中,原句⾥ likes 后的 ourselves 是 we 的反⾝代词,⽽这⾥ like 这⼀动作的执⾏者是 Leslie,因此 likes 后即使要⽤反⾝代词,也应该是 himself,⽽另⼀个改法是将反⾝代词改成 we 的宾格 us,即「我们认为 Leslie 喜欢我们」。
Bingo!GPT-3 答对了。
Bingo!GPT-3 答对了。
看完 GPT-3 的纠错效果,真是英语⽼师欣慰,学⽣惭愧……
GPT-3 还能做计算题?
不⽌英语⽼师欣慰,数学⽼师也跑不了。GPT-3 可以执⾏简单的计算。
OpenAI 研究⼈员在以下 10 项任务中测试了 GPT-3 做简单计算的能⼒,且⽆需任何任务特定的训练。
这⼗项任务分别是:两位数加减法、三位数加减法、四位数加减法、五位数加减法、两位数乘法,以及⼀位数混合运算。
⽤于测试 GPT-3 计算能⼒的⼗项任务。
在这⼗项任务中,模型必须⽣成正确的答案。对于每项任务,该研究⽣成包含 2000 个随机实例的数据集,并在这些实例上评估所有模型。
下图展⽰了 GPT-3(few-shot)在这⼗项计算任务上的性能。从图中可以看到,⼩模型的性能较差,
即使是拥有 130 亿参数的模型(仅次于拥有 1750 亿的 GPT-3 完整版模型)处理⼆位数加减法的准确率也只有 50% 左右,处理其他运算的准确率还不到 10%。
GPT-3 在多个语⾔建模任务中的表现
GPT-2 发布时在多个领域特定的语⾔建模任务上实现了当前最佳性能。现在,我们来看参数和成本⼤量增加后的 GPT-3 效果如何。