我们在上篇文章探讨了BERT与GPT的基础,下面来看看究竟GPT是什么。
GPT发展史
GPT是由OpenAI 团队研发创造, OpenAI是由创业家埃隆·马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等人于2015年在旧金山创立的一家非盈利的AI研究公司,拥有多位硅谷重量级人物的资金支持,启动资金高达10亿美金; OpenAI的创立目标是与其它机构合作进行AI的相关研究,并开放研究成果以促进AI技术的发展。不过2023年的情况是,马斯克已经非其股东,且公司转化为了盈利组织。
OpenAI已经创建了全世界最强大的大语言模型之一。该模型名为GPT-3,由1,750亿个统计性联系组成,可以理解为这个模型有1750亿个参数,或者说类似于有1750亿个“神经元”。
该模型在约三分之二互联网、整个维基百科和两个大型图书数据集中进行训练。在训练过程中,OpenAI发现,早期GPT-3很难准确提供用户想要的结果,一个团队提议使用“强化学习”系统完善该模型,“强化学习”是从试错中学习以取得最大化回报的人工智能系统(后面会做介绍)。
该团队认为,一款聊天机器人或许是不错的候选方法之一,因为以人类对话的形式持续提供反馈,使人工智能软件很容易知道其做得好的地方和需要改进的情况。因此,2022年初,该团队开始开发这款聊天机器人,也就是后来的ChatGPT(PS:这个项目其实普遍不被内部看好,差点被取消掉)。
GPT的训练
GPT1-3,皆使用的是Transformer架构,可以说模型结构没有创新型的设计,但是在微软的巨额资金支持下,GPT3模型由
(1)1750亿个参数(相当于大脑的神经元);
(2)31个分工明确的作者(皆是大神级别的人物);
(3)强大的超算平台(28.5万个CPU+1万个GPU(英伟达A100));
(4)45TB的训练数据(维基百科全部数据量相当于其0.6%)
等等要素进行支撑训练。
事实上,ChatGPT并没有直接发表论文,但是其前作InstructGPT有,所以大家只能根据这个推测GPT的训练。人工智能领域常说有多少智能,就有多少人工,其实非常适合描述其训练,这个公司聘用了40个外包公司(多少人不知道),在进行标注数据,让模型学习到的知识,使得模型输出的结果,可以更加符合人类的知识与常识,而初始训练只能靠人们标注。
ChatGPT的训练流程分成三个模块,首先来看一下第一个模块。
第一步,即第一个模块,人会标注一些数据,用人标注的数据,来训练一个模型,进而在GPT3上再一次强化。人会写一些知识给它,比如中国的首都是北京等等,通过人来调整最初版的GPT3,这个模型就初步具备了人类的知识,但是因为需要标注的东西其实非常多,因此也只是初步具备。
有了初步的模型后,我们可以问它一些问题,比如谁是最漂亮的女明星,然后GPT可能会回答,比如高圆圆>李宇春>范冰冰等等,此时进行第二步。
第二步中,外包公司(人)就会给所有排序人工打分,比如对李宇春、高圆圆、范冰冰哪个漂亮打分100分,然后看排序,用排序做对比,注意这里只关注排序,不再关注分数,得到的结果可能就是高圆圆>范冰冰>李宇春,这里用分数算排序,而不是直接用分数,就是因为分数更加主观。
在这个基础上,还会增加一个奖励排名,进行强化学习(非常重要),这个部分的目的是为了GPT3输出的结果进行排序,让排序符合人们的认知。这个时候可能结果就是高圆圆≈范冰冰>李宇春了。
其40个外包公司,主要就是对于GPT3输出的结果,进行排序,让模型学会人打的排序结果。
第三步,即第三个模块,通过不断的循环训练,我们会得到最终的ChatGPT模型,这个模型是一个循环训练的过程,需要让ChatGPT输出符合人类的认知,而人类的认知由RM决定,也就是第二步的步骤,同时还有一个模型来避免人类对ChatGPT结果产生过于严重的影响。
GPT(Generrative Pre-Trained Transformer)究竟是什么
在GPT论文的引言中,作者说:
"We explore a semi-supervised approach for language understanding tasks using a combination of unsupervised pre-training and supervised fine-tuning. Our goal is to learn a universal representation that transfers with little adaptation to a wide range of tasks."
上面的两句话把GPT的手段和目的说的再清晰不过了:手段是半监督训练(无监督的预训练+有监督的微调=半监督),目的是构建一个能够快速适配诸多NLP任务的通用语言表示。可以说前者讨论了GPT是怎么来的,而后者涉及拿到GPT后怎么用在其他NLP任务。
因此官方一点来讲:GPT模型是一种自然语言处理(NLP)模型,使用多层变换器(Transformer)来预测下一个单词的概率分布,通过训练在大型文本语料库上学习到的语言模式来生成自然语言文本。
简单来讲:GPT是一个超大语料基础上预训练出的大语言模型(LLM),采用类似写作文的方式,从左到右进行填字概率预测的自回归语言模型,并基于prompting(提示)来适应不同领域的任务。
从 GPT-1 到GPT-3 智能化程度不断提升, ChatGPT 的到来也是 GPT-4 正式推出之前的序章,目前GPT-3拥有1750亿个参数。虽然这种能力的表现还不算完美,但是他开启了一条一种通向“通用型人工智能”的道路,曾经科幻故事里的Jarvis,moss好像真的有了那么一点可能。
当前, ChatGPT所利用的数据集只截止到2021年。在对话中, ChatGPT会主动记忆先前的对话内容信息(上下文理解),用来辅助假设性的问题的回复,因而ChatGPT也可实现连续对话,提升了交互模式下的用户体验。同时, ChatGPT也会屏蔽敏感信息,对于不能回答的内容也能给予相关建议。
下一篇文章中,我们将探索为什么GPT具有如此大的突破,以及目前其局限性,欢迎关注我们。
止于至善投资总经理、基金经理:何 理
2023年2月23日
【公司介绍】
止于至善投资是一家风格鲜明的价值投资私募基金,我们秉承“只以合理价格,投资卓越公司”的投资理念,尽心尽力为投资者们提供证券市场理财服务。
公司成立于2016年,现为中国证券基金业协会观察会员,私募登记编号P1032345,并具有投顾资格。目前,止于至善已经进入多家券商、信托公司、基金销售公司、高校与慈善机构、上市公司等机构的投资(代销)白名单,并荣获数十项金融行业权威奖项:
2022年顶端新闻、万和证券|年度最受欢迎私募基金经理(何理)
2021年万联证券|“联赢大满贯”私募大赛年度最佳管理人
2020年《每日经济新闻》|金鼎奖、东方财富|年度最佳私募基金公司
2019年东方财富|年度最佳私募基金投资经理(何理)
2018年新浪财经|私募基金优秀机构等
风险揭示及免责声明:
本媒介发布的内容基于被认为可靠和善意的来源处获得的信息,但不承担任何错误或疏漏责任,也不对任何人因使用本媒介发布的内容所引致的任何损失负任何责任。建议您谨慎对待本媒介发布的内容。市场有风险,投资者应该明白,产品的过往业绩不预示其未来表现,投资者在做出投资决策前应充分评估自身风险承受能力,认真阅读产品合同等相关法律文件,自行承担投资风险。投资有风险,入市需谨慎!
本页面所涉私募基金内容仅对合格投资者展示!因擅自转载、引用等行为导致非合格投资者获取本文信息的,由转载方自行承担法律责任和可能产生的一切风险。
本页内容不构成任何投资建议,相关数据及信息来自基金管理人、托管估值机构、外部数据库,并可能援引内外部榜单、其他专业人士/或机构撰写制作的相关研究成果或观点,我司对所载资料的真实性、准确性、时效性及完整性不作任何实质性判断,对所涉产品/机构/人员不作任何明示或暗示的预测、保证,亦不承担任何形式的责任。
版权声明:未经许可,任何个人或机构不得进行任何形式的修改或将其用于商业用途。转载、引用、翻译、二次创作(包括但不限于以影音等其他形式展现作品内容)或以任何商业目的进行使用的,必须取得作者许可并注明作品来源为私募排排网,同时载明内容域名出处