春节期间,AI大模型DeepSeek突破性升级使其成为火遍全球的AI产品。数据显示,DeepSeek在2024年12月26日推出V3模型,因为其显著的性能,用户迅速开始增长;而在2025年1月20日发布R1模型后,DeepSeek正式出圈。
根据AI产品榜统计,DeepSeek-R1大模型1月份累计获得1.25亿用户(含网站(Web)、应用(App)累加不去重)。其中80%以上用户来自最后一周,即DeepSeek7天完成了1亿用户的增长,在下图所有产品中排名首位。
图片来源:AI产品榜官网
值得注意的是,2月1日,华为云宣布,华为云与硅基流动团队携手首发并上线了基于华为云昇腾云服务的deepseek-r1/v3推理服务。2月4日晚间,华为计算微信公众号发文表示,潞晨科技携手昇腾联合发布基于昇腾算力的DeepSeek-R1系列推理API及云镜像服务。2月5日后,DeepSeek概念横空出世,并迎来从应用端到算力端的全面爆发,连续多日成为领涨板块。
接下来,笔者将在下文给大家阐述本次最新的DeepSeek大模型实现的突破性变革,并分析它给国产算力端带来的新机会。
知识蒸馏+强化学习两大“低成本”创新!DeepSeek性能比肩OpenAI
本次DeepSeek-R1大模型亮点主要在于在有限的硬件和资源下,以“低成本+高性能+开源”三大特点在全球范围内迅速破圈。
如果拿最新发布的DeepSeek-R1和前一个版本的DeepSeek-V3做比较,R1是基于V3的集大成之作。其中,R1主要集中在后训练办法的创新,其训练架构建立在DeepSeek-V3基础模型之上,这些步骤主要包括:
首先,利用少量高质量的“冷启动(Cold Start,类似蒸馏,使模型更适应人类问答方式)数据进行强化学习(RL)、拒绝抽样(Rejection Sampling)、数据微调(SFT,让模型决定是否接受数据以避免被带偏),形成高质量数据集,接着用这个生成的高质量数据训练DeepSeek-V3,重复以上步骤得到收敛的R1模型。
图片来源:中航证券
换句话来说,DeepSeek-R1是第一个纯粹通过大规模强化学习(RL)训练,没有像OpenAI等模型一样以监督微调(SFT)作为初步步骤的模型,展示其强大的推理能力。数据显示,在数学、代码、自然语言推理等任务上,DeepSeek性能比肩OpenAI-o1。
图片来源:信达证券
此外, DeepSeek团队通过蒸馏技术,开源DeepSeek-R1-Zero、DeepSeek-R1及基于Qwen/Llama的6个蒸馏模型(1.5B、7B、8B、14B、32B、70B),并将大型模型的推理能力传递到小型模型。
由于强化学习的加入,蒸馏过程不仅仅是简单的知识传递,而是通过奖励机制进一步优化推理能力,使得小模型能够以更高效的方式学习并应用推理策略,因此在提升模型性能的同时也在显著降低计算成本。数据显示,这6个小模型在部分测试上性能超越OpenAI o1-mini。
图片来源:信达证券
在性能优化的基础之上,DeepSeek-R1的模型API定价成本显著降低。数据显示,DeepSeek R1模型每百万输入和百万输出token 0.55美元和2.19美元,价格仅为OpenAI GPT-o1的3%(OpenAI GPT-o1价格为每百万输入和百万输出token分别收取15美元和60美元)。
中信证券发研报指,DeepSeek新一代模型的发布,意味着AI大模型的应用将逐步走向普及,加速AI应用全面落地。同时,模型重心逐步从预训练切换到强化学习、推理阶段,助力算力需求持续增长。
从训练到推理!国产AI算力产业链或迎强势破局机会
值得注意的是,无论技术如何发展,大模型的持续普及和使用都离不开算力的支撑。DeepSeek的成功表明有限的算力也能够实现较强的模型能力,短期内或降低了对英伟达等国外高端芯片的依赖,为国产算力的发展带来了机会。东吴证券表示,未来的AI投入不再盲目“大力出奇迹”,逐渐将重心从预训练转向推理。
如果把“推理芯片”和“训练芯片”做对比,二者在计算能力、内存需求、架构等多个方面存在区别:
1、计算能力:训练芯片通常需要强大的浮点计算能力(FP32、FP64),因为训练过程涉及大量的矩阵运算和梯度计算。而推理芯片更注重低精度计算(如INT8、FP16),因为推理过程中可以通过量化技术将模型参数和计算过程简化,从而提高计算效率和降低功耗。
2、内存需求:训练芯片需要大容量、高带宽的内存来存储模型参数和中间计算结果,如英伟达的A100和H100 GPU配备了高带宽的HBM(高带宽存储器)。而推理芯片虽然也需要一定的内存带宽,但对内存容量的要求相对较低,更注重内存的访问效率。
3、架构:训练芯片通常采用大规模的并行计算架构,如GPU的CUDA架构,能够高效处理大规模并行任务。推理芯片可能采用更高效的专用架构,如ASIC(专用集成电路)和FPGA(现场可编程门阵列)。
综上所述,训练芯片主要是用于训练深度学习模型,其主要任务是通过大量的数据和复杂的计算过程来优化模型的参数,更注重高计算能力和高内存带宽。而推理芯片目标则是用于运行已经训练好的深度学习模型,将输入数据通过模型进行快速计算以得到输出结果,因此更注重低延迟、高吞吐量和低功耗。
笔者因此从服务器、芯片、云服务商三个角度为大家整理出Deepseek相关国产推理算力芯片相关A股公司,供大家参考。
华为+DeepSeek强强联合!机构:头部算力及云厂商或率先收益
从最新合作消息来看,华为昇腾、沐曦、天数智芯、摩尔线程等10余家国内知名AI芯片企业已经纷纷宣布接入DeepSeek,以DeepSeek为中心的国产AI产业链目前迅速扩大。
此外,华为云、天翼云、腾讯云、阿里云等超20家云厂商也宣布对DeepSeek提供支持。云厂商们通过“卖水人”的角色把DeepSeek等大模型的的API底座能力开放给更多C端用户,或作为底座模型去开发出更多垂直类应用。
华为昇腾作为打响了国产AI企业接入DeepSeek大模型第一枪的国内大厂,备受市场关注。节后以来,拓维信息、常山北明、四川长虹等华为昇腾、华为鸿蒙概念股表现亮眼。
浙商证券表示,2月1日,硅基流动和华为云便宣布联合发布并上线基于华为云昇腾云服务的DeepSeek R1/V3 推理服务,成为业内首个基于国产昇腾910B芯片提供推理服务的R1模型产品,且基于自研推理加速引擎加持,硅基流动和华为云昇腾云服务支持部署的 DeepSeek模型据介绍可获得持平全球高端GPU部署模型的效果。
中信证券则指出,华为昇腾作为国产AI芯片龙头,过去已通过昇腾910B助力三大运营商、科大讯飞等完成万卡集群,2025年有望凭借910C进一步助力国内AI发展。
对于云厂商,中信证券指出,各家云厂商的资源部署十分依赖AIDC、交换机、服务器等算力底座,开源AI大模型部署和用户访问量的快速提升,对提升闲置机房的使用、提高AIDC核心机房的上架率均有明显促进,看好国内云厂商收入边界拓宽及盈利能力提升,看好AIDC上架率快速增长。
数据说明
本文信息及数据来源于公开资料及外部数据库等,本平台无法对其真实性、准确性、完整性作出实质性判断和保证,分析结论仅供参考,所涉及品种均不构成实际投资操作建议。投资有风险,选择需谨慎。
风险揭示
本文所涉的文章观点,仅代表笔者个人观点,不代表本平台的任何立场,不构成任何股票推荐及投资建议。
版权声明:未经许可,任何个人或机构不得进行任何形式的修改或将其用于商业用途。转载、引用、翻译、二次创作(包括但不限于以影音等其他形式展现作品内容)或以任何商业目的进行使用的,必须取得我司许可并注明作品来源为私募排排网,同时载明内容域名出处。
本页面所涉私募基金内容仅对合格投资者展示!因擅自转载、引用等行为导致非合格投资者获取本文信息的,由转载方自行承担法律责任和可能产生的一切风险。
本页内容不构成任何投资建议,相关数据及信息来自基金管理人、托管估值机构、外部数据库,并可能援引内外部榜单、其他专业人士/或机构撰写制作的相关研究成果或观点,我司对所载资料的真实性、准确性、时效性及完整性不作任何实质性判断,对所涉产品/机构/人员不作任何明示或暗示的预测、保证,亦不承担任何形式的责任。
版权声明:未经许可,任何个人或机构不得进行任何形式的修改或将其用于商业用途。转载、引用、翻译、二次创作(包括但不限于以影音等其他形式展现作品内容)或以任何商业目的进行使用的,必须取得作者许可并注明作品来源为私募排排网,同时载明内容域名出处