比尔·盖茨(微软前CEO)说:“这种AI技术出现的重大历史意义,不亚于互联网和个人电脑的诞生。”
马斯克(特斯拉CEO)说:“ChatGPT好吓人,我们离强大到危险的AI不远了。”
黄仁勋(英伟达CEO)说:“ChatGPT类似AI界的iPhone。”
火出圈的ChatGPT,仅仅是GPT的子功能之一,上线2个月MAU即突破1亿人,创下人类历史最快的记录,今天我们就从其最基础的逻辑展开,对其进行初探。
文章包含(1)NLP;(2)Transformer;(3)BERT、GPT两者对比;三个部分,没有复杂的公式、图表,仅探索逻辑,欢迎共同探讨。
NLP(Natural Language Processing,自然语言处理)
自然语言处理(NLP)是研究人与计算机交互的语言问题的一门学科。NLP任务(自然语言处理,AI的一个技术领域,即文本类的AI任务)的核心逻辑是一个“猜概率”的游戏。
比如说,“我今天被我老板___”,经过大量的数据训练后,AI预测空格处会出现的最高概率的词是“PUA了”,那么PUA就会被填到这个空格中,从而答案产生——“我今天被我老板PUA了”。
虽然非常不可思议,但事实就是这样,现阶段所有的NLP任务,都不意味着机器真正理解这个世界,他只是在玩文字游戏,进行一次又一次的概率解谜,本质上和我们玩报纸上的填字游戏是一个逻辑。只是我们靠知识和智慧,AI靠概率计算。
NLP问答分为2个层次:(1)语句通顺;(2)符合知识;比如人工智能回复:中国的首都是上海,就实现了语句通顺,但是不符合知识。
而在目前的“猜概率”游戏环境下,基于大型语言模型(LLM,Large Language Model)演进出了最主流的两个方向,即BERT(Bidirectional Encoder Representations from Transformers)和GPT(Generative Pre-trainning Transformers),可以看到这两个方向最后一个单词都是Transformers,因此我们先讲讲这个词背后的意思,再讲具体的BERT、GPT。
Transformer
2017年,谷歌提出用于序列翻译的Transformer模型,在该模型中创造性的使用完全的注意力模块替代循环神经网络(RNN)结构以实现注意力机制,Transformer一诞生就在自然语言处理(NLP)领域中取得了碾压性的好成绩。
注意力机制最大的特点,就是使得AI工作时会注重重点,它把每一个输出的语言以及预测的语言在进行翻译时,要提前对预测的语言说出前,要重新检验原来所有的词,而所有的词有的词是重视的,有的是不重视的,这就是注意力模型做出来的,而哪个重要不是人指定的,是自动学习的,引发了长句翻译等等的重大进展。
Transformer算是开了个好头,如果将Transformer也做预训练模型的基础架构,会不会“好上加好”?OpenAI和谷歌在2018年分别提出了GPT(Generative Pre-Training)模型和BERT(Bidirectional Encoder Representations from Transformers)模型,这两种模型都是基于Transformer预训练模型的典型代表,也是今天的主角。
BERT、GPT两者对比
通过BERT、GPT两者基础逻辑对比,其实非常好理解两者的差异。
在GPT3“出圈”之前,BERT是之前最流行的方向,几乎统治了所有NLP领域,并在自然语言理解类任务中发挥出色(例如文本分类,情感倾向判断等)。
而GPT方向则较为薄弱,最知名的玩家就是OpenAI了,事实上在GPT3.0发布前,GPT方向一直是弱于BERT的(GPT3.0是ChatGPT背后模型GPT3.5的前身)。
接下来看看BERT和GPT两者之间的差别:
BERT:双向 预训练语言模型+fine-tuning(微调)
GPT:自回归 预训练语言模型+Prompting(指示/提示)
BERT和GPT两者都是基于大语言模型的,他们在这一点上是相同的。他们的不同在于双向/自回归,fine-tuning/Prompting这两个维度,我们接下来会重点弄明白这四个术语。
BERT:双向。双向是指这个模型在“猜概率的时候”,他是两个方向的信息利用起来同时猜测。例如“我在__汉堡”,他在预测的时候,是同时利用“我在”+“汉堡”两端的信息来预测空格中的词可能为“吃”。有点像我们做英文的完形填空,通常都是结合空格两端的信息来猜测空格内应该是哪个单词。
GPT:自回归。自回归就是猜概率的时候从左往右做预测,不会利用文本中右侧的内容,和BERT相反。这就有点像我们写作文的时候,我们肯定是一边写一边想。
两者基本理念的区别导致BERT在之前更擅长自然语言理解类任务,而GPT更擅长自然语言生成类任务(例如聊天、写作文),但这些问题已经在GPT时代有所改变。
BERT的fine-tuning模式有两个痛点:
1. 我需要准备某个专业领域的标注数据,这个数据还不能少,如果太少,AI模型训练后就会形成过拟合(就是AI直接背下了整本习题册,册里的问题100%正确回答,但是稍微变换题型就GG)。
2. 我需要部署大语言模型,才能对他进行进行微调,那么部署大语言模型的成本,甚至进一步对他进行微调的能力,并不是所有公司都具备的。这注定是一个只有少数玩家能参与的游戏。
而Prompt模式恰恰相反,不需要太多的数据量,不需要对模型参数进行改动(也就意味着可以不部署模型,而是接入公开的大语言模型服务)。那么他的调试就会呈现百花齐放的姿态,玩家越多,创造力涌现就越猛烈。
从落地项目来看,BERT最有名的落地项目就是谷歌的AlphaGo了其可谓已经称霸了围棋界,而从去年底就火出圈的ChatGPT则是GPT的最有名的项目。
很明显前者AlphaGo的任务更加明确即下围棋,使用了8块英伟达A100芯片作为内核的“基建”超算平台,而后者GPT的任务则更加的“通用”即回答人类各种各样的问题,使用了高达10000块英伟达作为内核的“基建”超算平台,为什么GPT相较于BERT是具有颠覆性、突破性的呢?以至于
比尔·盖茨(微软前CEO)说:“这种AI技术出现的重大历史意义,不亚于互联网和个人电脑的诞生。”
马斯克(特斯拉CEO)说:“ChatGPT好吓人,我们离强大到危险的AI不远了。”
黄仁勋(英伟达CEO)说:“ChatGPT类似AI界的iPhone。”
这两者更进一步的分析,我们将在下一篇文章展开探索。
止于至善投资总经理、基金经理:何 理
2023年2月22日
【公司介绍】
止于至善投资是一家风格鲜明的价值投资私募基金,我们秉承“只以合理价格,投资卓越公司”的投资理念,尽心尽力为投资者们提供证券市场理财服务。
公司成立于2016年,现为中国证券基金业协会观察会员,私募登记编号P1032345,并具有投顾资格。目前,止于至善已经进入多家券商、信托公司、基金销售公司、高校与慈善机构、上市公司等机构的投资(代销)白名单,并荣获数十项金融行业权威奖项:
2022年顶端新闻、万和证券|年度最受欢迎私募基金经理(何理)
2021年万联证券|“联赢大满贯”私募大赛年度最佳管理人
2020年《每日经济新闻》|金鼎奖、东方财富|年度最佳私募基金公司
2019年东方财富|年度最佳私募基金投资经理(何理)
2018年新浪财经|私募基金优秀机构等
风险揭示及免责声明:
本媒介发布的内容基于被认为可靠和善意的来源处获得的信息,但不承担任何错误或疏漏责任,也不对任何人因使用本媒介发布的内容所引致的任何损失负任何责任。建议您谨慎对待本媒介发布的内容。市场有风险,投资者应该明白,产品的过往业绩不预示其未来表现,投资者在做出投资决策前应充分评估自身风险承受能力,认真阅读产品合同等相关法律文件,自行承担投资风险。投资有风险,入市需谨慎!
本页面所涉私募基金内容仅对合格投资者展示!因擅自转载、引用等行为导致非合格投资者获取本文信息的,由转载方自行承担法律责任和可能产生的一切风险。
本页内容不构成任何投资建议,相关数据及信息来自基金管理人、托管估值机构、外部数据库,并可能援引内外部榜单、其他专业人士/或机构撰写制作的相关研究成果或观点,我司对所载资料的真实性、准确性、时效性及完整性不作任何实质性判断,对所涉产品/机构/人员不作任何明示或暗示的预测、保证,亦不承担任何形式的责任。
版权声明:未经许可,任何个人或机构不得进行任何形式的修改或将其用于商业用途。转载、引用、翻译、二次创作(包括但不限于以影音等其他形式展现作品内容)或以任何商业目的进行使用的,必须取得作者许可并注明作品来源为私募排排网,同时载明内容域名出处