OpenAI:我们刚刚发布了 GPT-4 ,这是OPenAl在扩大深度学习方面的最新里程碑。1 ) GPT-4 是一个大型的多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界的场景中 能力不如人类。2)GPT-4在各种专业和学术基准上表现出人类水平的表现。例如它通过了模拟 的律师考试,分数在应试者的前10% ;相比之下GPT-3.5的分数则在后10%左右。我们花了 特斯拉modely将发布6个 月的时间,利用我们对抗学习和来自ChatGPT的经验反复调整GPT-4 ,结果在事实性、可引导性 以及合规性取得了有史以来最好的结果(尽管远非完美).
在过去的两年里,我们重建了整个深度学习堆栈,并与AZUre一起,为我们的工作负荷从头开始共同设计 了一台超级计算机。一年前,我们训练了 GPT-3.5作为系统的第一次"试运行"。我们发现并修复了一些错 误,并改进了我们的理论基础。因此,我们的GPTT训练运行(至少对我们来说是如此I )前所未有的稳 定,成为我们第一个训练性能能够提前准确预测的大型模型随着我们继续专注于可竟的扩展,我们的目 标是磨练我们的方法,以帮助我们越来越提前地预测和准备未来的能力--我们认为这对安全至关重要。
我们正在通过ChatGPTAPl发布GPT-4的文本输入功能。为了准备更广泛地提供图像输入功能,我们正 在与一个合作伙伴紧密合作,以开始。我们还在开源OPenAlEvals,这是我们自
动评估人工智能模型性能的 框架,允许任何人报告我们模型中的缺点,以帮助指导进一步的改进。
GPT4与上一代GPT3.5在不同考试中的分数对比
Exam results (ordered by GPT 3.5 performance)
Estimated percentile lower bound (among test takers)
展望-图像输入:GPT-4可以接受文本和图像的提示,这与纯文本平行,让用户指定任何视觉或语言任务。
具体来说,它可以生成文本输出(自然语言、代码等),给定的输入包括穿插的文本和图像,在一系列的 领域中,包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯文本输入类似的能力。此外, 它还可以使用为纯文本语言模型开发的测试时间技术,包括少数几个镜头和思维链提示。目前图像输入仍 然是没有公开提供的一个研究方向。
Al的可引导性:我们一直在努力实现我们在定义人工智能行为的文章中概述的计划的各个方面,包括可引 导性,与经典的ChatGPT个性的固定言语、语气和风格不同,开发者(以及很快ChatGPT用户)现在可以 通过在“系统”消息中描述这些方向来规定他们的Al的风格和任务。系统消息允许APl用户在范围内大幅 定制他们的用户体验。我们将继续在这里进行改进,但我们鼓励你尝试并让我们知道你的想法。
GPT4的局限性:尽管有这样的能力,GPTY也有与早期GPT模型类似的局限性。最重要的是,它仍然不是 完全可靠的(它对事实产生"幻觉",并出现推理错误)o在使用语言模型的输出时,特别是在高风险的情 况下,应该非常小心,准确的协议(如人类审查,用额外的
背景接地,或完全避免高风险的使用)与特定 的使用案例的需求相匹配.虽然仍然是一个真实的问题,但相对于以前的模型(这些模型本身也在不断改 进),GPT-4大大减少了幻觉。在我们的内部对抗性事实性评估中,GPT-4的得分比我们最新的GPT-3.540%.
Internal Factual Eval by Category
Accuracy
On nine categories of internal adversarially-designed factual evals, we compare G versions. There are significant gains across all topics. An accuracy of 1.0 means th∙ agreement with human ideal responses for all questions in the eval.
TrUthfUlQA等外部评测:该基准测试了模型从对抗性选择的不正确陈述中分离事实的能力。这些问题与在 统计学上具有吸引力的事实错误答案配对。GPT-4基础模型在这项任务上只比GPT-3.5略胜一筹;然而在 RLHF后训练(应用我们对GPT-3.5使用的相同过程)之后,存在很大差距。
他的模型在输出时可能会有各种偏差-我们在这些方面已经取得了进展,但仍有更多工作要做。根据我们 最近的博文,我们的目标是使我们建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观, 允许这些系统在广泛的范围内进行定制,并获得公众对这些范围的意见。
GPT-4通常缺乏对其绝大部分数据截止后(20219月)发生的事件的了解,也不会从其经验中学习。它 有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。 有时它也会像人类一样在困难的问题上失败,例如在它产生
的代码中引入安全漏洞。
GPT-4也可能在预测中自信地犯错,在它可能犯错的时候不注意反复检查工作。有趣的是,基础的预训练 模型是高度校准的(它对答案的预测信心一般与正确的概率相匹配)。然而,通过我们目前的后训练过程, 校准程度降低了。
总的来说,我们的模型级干预措施增加了诱发不良行为的难度,但这样做仍然是可能的。此外,仍然存在" 越狱"的情况,以产生违反我们使用指南的内容。随着人工智能系统的"每个令牌的风险”的增加,在这 些干预措施中实现极高的可靠性将变得至关重要;目前,重要的是用部署时间的安全技术来补充这些限制, 如监测滥用。
GPT-4和后续模型有可能以有益和有害的方式大大影响社会。我们正在与外部研究人员合作,以改善我们 对潜在影响的理解和评估,以及建立对未来系统中可能出现的危险能力的评估。我们将很快分享我们对 GPT-4和其他人工智能系统的潜在社会和经济影响的更多思考。
APl和费用:要获得GPT-4 API (请在我们的等待名单上注册。我们将从今天开始邀请一些
开发者,并逐步 扩大规模,以平衡容量与需求。如果你是研究人工智能的社会影响或人工智能对接问题的研究人员,你也 可以通过我们的研究人员访问计划申请补贴的访问。一旦你有了访问权,你就可以向gpt-4模型提出纯文本 请求(图像输入仍处于有限的测试阶段),随着时间的推移,我们会自动更新到我们推荐的稳定模型(你 可以通过调用gpt-4-0314来锁定当前版本,我们将支持到614日)。定价为每IOOOPromttOkeno.03美 元,每l∞0 completion token0.06美元。默认的速率限制是每分钟40k和每分钟200个请求。
GPT-4的上下文长度限制为8,192token ,我们还提供支持32,768token (约50页文本)版本的有限访 问,gpt-4-32k,它也将随着时间的推移自动更新(当前版本gpb4-32k-0314,也支持到614日)。价格 是每1000 prompt toke∩0.06美元,每IOoo completion tokens.0.12美元。我们仍在改进长上下文的模型质量, 并希望得到关于它在你的使用案例中的表现的反馈。我们正在根据容量以不同的速度处理对8K32K引擎 的请求。
投资建议:我们认为随着GPT4的重磅发布,相关多模态大模型的垂直领域应用或将进一步得到开发,多 模态大模型相关的应用场景将伴随大模型能力的提升和成本降低逐步普及,美股建议关注:【微软】(OffiCe 目前拥有接近4亿的用户,收购OPenAlOffiCeARPU
升与AZUre云相关业务有望贡献增量收入)、【英 伟达、台积电】等半导体公司(搜索和相关AlGC内容创作对GPU相关资本开支的拉动将提升半导体行业 收入与业绩)。