三分钟看懂ChatGPT

clk敞篷三分钟看懂ChatGPT

风行m6

1ChatGPT技术

1.1是什么

ChatGPT 是一个基于语言模型 GPT-3.5 的聊天机器人，ChatGPT模型是Instruct GPT的姊妹模型（siblingmodel），使用强化学习和人类反馈来更好地使语言模型与人类指令保持一致。

1.2GPT起源

Generative Pre-Trained Transformer (GPT) 是一系列基于Transformer 的深度学习语言模型。OpenAI于 2018 年 6 月在题为《Improving Language Understanding by Generative Pre-Training》的论文中提出了第一个 GPT 模型 GPT-1。从这篇论文中得出的关键结论是，Transformer 架构与无监督预训练的结合产生了可喜的结果。GPT-1 以无监督预训练+有监督微调的方式——针对特定任务进行训练——以实现“强大的自然语言理解”。

2019 年 2 月，OpenAI发表了第二篇论文“Language Models are Unsupervised Multitask Learners”，其中介绍了由GPT-1演变的GPT-2。尽管 GPT-2 大了一个数量级，但它们在其他方面非常相似。两者之间只有一个区别：GPT-2 可以完成多任务处理。OpenAI成功地证明了半监督语言模型可以在“无需特定任务训练”的情况下，在多项任务上表现出。该模型在零样本任务转移设置中取得了显著效果。

随后，2020年5月，OpenAI发表《Language Models are Few-Shot Learners》，呈现GPT-3。GPT-3 比 GPT-2大 100 倍，它拥有1750 亿个参数。然而，它与其他 GPT 并没有本质不同，基本原则大体一致。尽管 GPT 模型之间的相似性很高，但 GPT-3 的性能仍超

出了所有可能的预期。

2022年11月底，围绕ChatGPT机器人，OpenAI进行了两次更新。11月29日，OpenAI发布了一个命名为“text-davinci-003”（文本-达芬奇-003”）的新模式。在11月30日发布它的第二个新功能：“对话”模式。它以对话方式进行交互，既能够做到回答问题，也能承认错误、质疑不正确的前提以及拒绝不恰当的请求。

2ChatGPT工作原理

2.1概述

使用机器学习算法来分析和理解文本输入的含义，然后根据该输入生成响应。该模型在大量文本数据上进行训练，使其能够学习自然语言的模式和结构。

2.2细节

ChatGPT 模型使用一种称为人类反馈强化学习 (RLHF) 的机器学习进行训练，可以模拟对话、回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。为了创建强化学

习的奖励模型，OpenAI收集了比较数据，其中包含两个或多个按质量排序的响应模型。为了使生成的文本更容易被人理解，OpenAI招募了人类训练师，在训练过程中，人类训练师扮演了用户和人工智能助手的角。模型在Microsoft Azure的超算设施上进行训练。

ChatGPT模型的训练过程与其前身RLHF非常相似：

1. 使用有监督的微调训练初始模型：人类训练师之间提供对话，其中一个扮演用户，另一个扮演ChatGPT 中的 AI助手。为了创建强化学习的奖励模型，需要收集比较数据，并使用收集到的数据调整 GPT-3.5 模型；福特expedition

奥迪宝马奔驰等否认价格暴降2．模型会根据提示生成多个输出，训练师将 ChatGPT 编写的回复与人类的回答进行比较，并对它们的质量进行排名，以帮助强化机器的类人对话风格。奖励模型将自动执行最后一个训练阶段，使用排名后的数据训练；

3．在最后一步使用近端策略优化进一步调整，这是 OpenAI 广泛使用的强化学习技术。

3ChatGPT谁出的

ChatGPT由OpenAI开发，采用基于GPT-3.5架构的大型语言模型。OpenAI 是一家位于旧金山的研究实验室，成立于 2015 年，由其首席执行官Sam Altman、Elon Musk以及风险投资家Peter Thiel等人共同出资10亿美元建立。OpenAI的诞生旨在开发通用人工智能（AGI），并确保其成为一种高度自主、且在大多数具有经济价值的工作上超越人类的系统。而GPT正是OpenAI通过文字模态来探索通用人工智能的一种方式。

科目二模拟机要上多久●OpenAI研究方向

训练生成模型（Training Generative Models）

从数据中推断算法（algorithms for inferring algorithms from data）

“特斯拉2死3伤事故”车主家属发声强化学习的新方法（new approaches to reinforcement learning）

●大致代表了以下三个研究主题：

Deep Generative Model 深度生成模型

Neural Turing Machine 神经图灵机

Deep Reinforcement Learning 深度强化学习

●OpenAI近况

研究进展

2022 年 11 月，OpenAI 向公众开放了使用对话进行交互的ChatGPT；2022年9月，OpenAI发布了一个名为 Whisper 的神经网络，称其在英语语音识别方面能够接近人类水平的鲁棒性和准确性。Whisper 是一种自动语音识别 (ASR) 系统，使用从网络收集的68万小时、多语言和多任务监督数据进行训练；

2021年，OpenAI 宣布将通过 API 向企业和开发者提供访问其 Codex 程序的机会。Codex是一种基于GPT-3的自然语言代码统，有助于将简单的英语指令转换为十几种流行的编码语言；2021 年 1 月，OpenAI 推出了DALL-E。一年后，他们的最新系统 DALL·E 2 生成了更逼真、更准确的图像，分辨率提高了4倍。

投融资

OpenAI最近一次融资在2019年，获得微软10亿美元的投资。此外，OpenAI也在进行对外投资，去年推出StartFund，与合作伙伴（包括微软）一同投资处于早期阶段的专注于能使AI在领域内（如气候变化、医疗、教育等）产生变革性影响的公司。目前，Start Fund已投资4家公司，分别是Descript、Harvey AI、Mem和 Speak，它们在大规模重塑创造力、辅助律师工作、提高知识工作者的生产力和教育方面具有巨大潜力。

三分钟看懂ChatGPT

发布评论取消回复

最近发表

热门文章

标签列表