ChatGPT的技术架构介绍
OpenAI于2022年11月底发布了ChatGPT及其测试接口的最新研究成果。ChatGPT在发布后的短短几天内就火了。小编还带着好奇体验了ChatGPT。整体体验是,无论是在一些传统的NLP任务中,包括关系提取、事件提取、写作和对话,还是在其他任务中,包括编写代码和角色扮演,都表现出一种非常严谨的合理性。
那接下来小编和大家一起了解下ChatGPT的技术架构演变历史。
1、GPT家族的演进
说到ChatGPT,就会需要提到GPT家族。
在ChatGPT研发之前有几个知名的同类技术,有GPT-1、GPT-2和GPT-3。在这种技术中,ChatGPT与GPT-3更为接近。
ChatGPT与GPT 1-3的技术对比
GPT系列和BERT模型,都基于Transformer技术,同为有名的NLP模型,GPT-1仅12个Transformer层,而GPT-3,则增加到了96层。
2、人类反馈强化学习
InstructGPT/GPT3.5(ChatGPT的前身)与GPT-3的主要区别在于,新加入了被称为RLHF(人类反馈强化学习)。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。
在InstructGPT中,以下是“goodnessof sentences”的评价标准:信息真实性,是否对人无害性,信息的有用性
3、TAMER框架
这里还需要提到TAMER框架。该框架将人类标记者引入到Agents的学习循环中,可以通过人类向Agents提供奖励反馈,从而快速达到训练任务目标。
TAMER框架论文
加快训练速度是引进人类标记者的主要目的。虽然强化学习技术在许多领域表现突出,但仍存在许多不足,如训练收敛速度慢、训练成本高等。尤其在现实世界中,很多任务的探索成本或者数据获取成本都很高。怎样提高训练效率,是当今加强学习任务需要解决的一个重要问题。
而且TAMER可以以奖励信反馈的形式训练Agent来标记人类的知识,加速其快速收敛。TAMER不需要标记专业知识或编程技术,语料成本较低。使用TAMER+RL(加强学习),借助人类标记者的反馈,可以加强从马尔可夫的决策过程(MDP)加强学习的奖励(RL)的过程。
具体来说,人类标记者扮演对话用户和人工智能助手的角色,提供对话样本,让模型产生一些回复。然后,标记者会对回复选项进行评分和排名,并将更好的结果反馈给模型。作为一个集成系统,Agents可以通过奖励策略进行微调和迭代,同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励。
在此基础上,ChatGPT可以比GPT-3更好地理解和完成人类语言或指令,模仿人类,并提供连贯和合乎逻辑的文本信息。
4、ChatGPT训练
ChatGPT的训练过程分为以下三个阶段:
第一阶段:培训监督策略模型模型
GPT3.5很难理解不同类型的人类指令中包含的不同意图,也很难判断生成的内容是否是高质量的结果。为使GPT3.5初步有理解指令的意图,首先将问题随机抽取到数据集中,由人类标注,给出高质量的答案,然后利用这些人工标注的数据对GPT-3.5模型进行微调(获取SFT模型,SupervisedFine-Tuning)。
在这个时候,SFT模型在遵循指令/对话方面已经优于GPT-3,但并不一定符合人类的偏好。
第二阶段:训练奖励模型(Reward Mode,RM)
这一阶段主要是通过人工标记训练数据(约33K个数据)来训练回报模型。随机抽取数据集中的问题,使用第一阶段生成的模型,为每一个问题生成多个不同的答案。综合考虑这些结果,人类标记者给出了排名顺序。这个过程类似于教练或者老师的指导。
下一步,利用此排序结果数据对奖励模型进行训练。对于多个排名结果,两两组合,形成多个训练数据对。RM模型接受输入,并给出评估和回答质量的分数。通过这种方式,对于一对训练数据,调整参数使得高质量答案的分数高于低质量的分数。
第三阶段:采用PPO(Proximal Policy Optimization,近端策略优化)强化学习来优化策略。
PPO的核心思路是将PolicyGradient中On-policy的训练过程转化为Off-policy,将在线学习转化为离线学习,这种转化过程被称为ImportanceSampling。本阶段采用第二阶段训练好的奖励模式,通过奖励分数更新预训练模型参数。随机抽取数据集中的问题,使用PPO模型生成答案,并使用上一阶段训练出来的RM模型给出质量分数。依次传递回报分数,从而产生战略梯度,通过强化学习的方式更新PPO模型参数。
如果我们通过迭代不断重复第二和第三阶段,我们将训练出更高质量的ChatGPT模型。
以上就是ChatGPT的技术架构介绍(2023年最新)相关介绍,了解chatgpt更多消息查看汇总页。
本页面所涉私募基金内容仅对合格投资者展示!因擅自转载、引用等行为导致非合格投资者获取本文信息的,由转载方自行承担法律责任和可能产生的一切风险。
本页内容不构成任何投资建议,相关数据及信息来自基金管理人、托管估值机构、外部数据库,并可能援引内外部榜单、其他专业人士/或机构撰写制作的相关研究成果或观点,我司对所载资料的真实性、准确性、时效性及完整性不作任何实质性判断,对所涉产品/机构/人员不作任何明示或暗示的预测、保证,亦不承担任何形式的责任。
版权声明:未经许可,任何个人或机构不得进行任何形式的修改或将其用于商业用途。转载、引用、翻译、二次创作(包括但不限于以影音等其他形式展现作品内容)或以任何商业目的进行使用的,必须取得作者许可并注明作品来源为私募排排网,同时载明内容域名出处