DeepSeek&豆包最新进展更新

专栏头像

调研纪要

2025-02-05

放松眼睛听

神秘嘉宾入驻萝卜,你喜欢她的声音吗?

要点

1、DeepSeek的优势

性能优异:DeepSeek R1在数学、代码层面与OpenAI 12月份的R1完整版本不相上下,在一些通识和科学问题上稍差一点,模型性能已比肩R1。

迭代速度快:2024年5月推出V2,11月R1预览版上线,12月推出V3,一个月后DeepSeek已可与12月份的R1相当,之后又推出多模态的理解和深层模型,迭代速度非常快。

成本低:和OpenAI相比,DeepSeek的综合成本约为其30分之1;和OpenAI的O3 mini相比,DeepSeek具有较强性价比,成本约为其一半到4分之1。若为R1版本,相比之下成本也能降低2分之1到4分之1。

思路创新:DeepSeek强调用纯粹的强化学习和能启动的数据,中间过程设计使模型产生较强的反思思维链能力,且语言一致性强。

开源领先:DeepSeek是全球最顶尖的开源模型,让海外震惊,国内模型率先真正进入全球能力竞争。

2、算力相关

算力成本优化:DeepSeek对算力成本优化较大,其训练对卡的需求较低,如V3的训练成本约为558万美金。论文中体现了规模效应,模型参数、GPU小时数、训练语料等不断增加,虽单一模型训练成本升高,但在强化学习轮次达到一定程度后会迎来拐点,即使有大量优化,DeepSeek仍体现出较强的scale law。

对算力格局的影响:DeepSeek用更底层的PTX方式做调优,大范围提升通信效率,减少缓存,提高总计算效率,这对英伟达中期影响不大,对国产算力而言,若能快速响应并做好芯片设计等,提供有性价比的产品,将是一个机会。

3、应用方面

利好应用:推理成本降低且效果好,利好全球应用及国内应用,尤其对高容错的C端和B端应用有价值,对数学、代码等特定行业应用也是利好,如在教育领域,对计算机行业影响大。

4、投资思考

大模型水平与应用不确定性:国内大模型水平开始跟上全球顶尖水平,但持续放量的应用不确定性较高。

规模效应与应用主题:目前有规模效应的持续扩张应用尚不清晰,AI应用的主题类投资节奏未完,在主题时间内,基于DeepSeek和豆包的相关应用公司有持续投资机会,大厂生态最强,主题龙头会持续发酵。

其他方向:自动驾驶方向明确,国内代表公司及特斯拉产业链公司已走趋势,可作为AI验证的扩散器;机器人是AI应用的终极领域,国内大模型提升对其是加持;军工AI需求好预测,格局好,今年投入会增加。

5、DeepSeek的技术细节

R1模型:DeepSeek R1发布后在海外反响强烈,接近一个月后追上OpenAI的O1,成本低且在数学方面表现超过O1。R1论文中提到发布了两个模型,R1ZL直接跳过监督微调进行强化学习,取得了较好成果,但可读性差,语言混杂,后又训练了R1模型,进行了多阶段的监督微调,并使用了创新的GRPO算法和基于规则的奖励。此外,论文还发布了六个小模型,展示了蒸馏模型的优势。

V3模型:V3是混合专家模型MOE,参数量为671B,每次激活的参数量为37B,专家粒度细,且在训练时有负载均衡策略。V3在14.8万亿token上训练,在2000块H800上训练,成本较低。V3提出了基于FP8精度的混合精度训练框架,达到模型性能和成本的平衡。

其他方面:DeepSeek用PTX在通信方面从更底层进行优化,体现其人才软硬件精通,未来看GPU厂商时需关注其对不同精度数据格式的支持。此外,豆包1.5 Pro在硬件上做了优化,DVC推出的视觉方面模型表现优秀。R1团队提到未来会改进通用能力、多语言混淆等问题。DeepSeek的成果全部开源,利好海内外AI应用落地加速。在预训练模型投入可能放缓的情况下,后续训练阶段的强化学习和微调是大模型厂商重点投入方向。大模型厂商的竞争除算力储备外,更是人才比拼,利好国产模型。算力方面,长期对推理算力利好,降低模型门槛可吸引更多玩家,DeepSeek在硬件层面的优化利好国内外芯片厂商。

Q&A

Q:DeepSeek好在哪里?

A:DeepSeek的优势主要体现在以下几个方面:一是性能好,DeepSeek R1在数学、代码层面与欧派12月份的R1完整版本不相上下,在通识、科学问题方面稍差一点,模型性能比肩R1。二是迭代速度快,24年5月推出V2,主要是节约成本;11月R1推理预览版上线,与R1上一版本推理效果接近且算力消耗低;12月推出V3,提出很多新内容,如使用FP8混合精度,提升算力效率,一个月后就能和12月份的R1相当,之后又推出多模态模型。三是成本低,与OpenAI相比综合成本约为其1/30,与O3 mini相比性价比高,约为其1/4到1/2,R1版本相比也能降低1/4到1/2的成本。四是思路创新,强调监督学习用得少,用纯粹强化学习和启动数据,让模型产生较强反思思维链能力,且在推理过程中展示思维链。五是在开源方面表现出色,是全球最顶尖的开源模型。

Q:DeepSeek V3的情况如何?

A:DeepSeek V3于去年12月推出,提出了很多内容,包括使用FP8混合精度,相比DF16提升算力效率显著,训练成本约560万美金。效果方面,各任务水平达到了Cloudy 3.5 Solid的水平,但编程方面另当别论,尚未达到R1水平 。一个月后基于V3推出的版本已可以和12月份的R1相当。

Q:DeepSeek与其他模型相比成本如何?

A:DeepSeek与OpenAI相比,整个综合成本大概在其1/30的水平;与O3 mini相比,具有较强性价比,成本约为其1/4到1/2;若与O3正式版对比,相信优势也较大;R1版本相比其他模型在训练和推理上也能降低1/4到1/2的成本。

Q:DeepSeek在算力成本优化方面情况如何,与其他模型相比有什么特点?

A:整个算力成本优化空间较大。最早GPT - 4训练用两万多张A100卡的集群,现在很多模型在探索10万卡集群。DeepSeek训练对卡的需求相对较低,其V3版本大概花费558万美金。在预训练过程中有很多探索性工作,由于涉及对数据处理、实验以及不同版本预训练等难以精确统计,实际训练量应远大于DeepSeek目前的算力消耗。

Q:DeepSeek在模型训练中如何体现规模效应?

A:从V1、V2到V3版本,模型参数越来越大,GPU小时数增多,训练语料从2T增长到14.8T,单一模型训练成本升高。在后训练过程中,强化学习轮次增多到一定程度会迎来拐点,在合适的训练次数设置下能出现较好效果,体现出。

Q:为什么说算力需求短期有迟疑,中期会增多?

A:短期有迟疑是因为全球采购大厂可能阶段性进行算法革新,如使用FP8、优化中间算法。但从结构上看规模效应依旧明显。中期会增多的原因是,训练效率提高虽使采购不会每年暴增,但同样算力下效果越好,越接近应用层面和AGI过程,大家投入欲望越强,可能在短暂迟疑后又会进一步投入。

Q:DeepSeek使用PTX对英伟达和国产算力格局有什么影响?

A:对英伟达而言,PTX是英伟达生态重要一环,DeepSeek等公司用PTX做的优化,英伟达可与其沟通并将这些处理方式融入新的CUDA生态,中期影响不大,短期需展现执行力。对国产算力来说,这给了新进入者启发,CUDA生态不再是绝对壁垒,国产厂商若能快速响应,将底层处理方式应用到芯片和软件生态更新中,提供有性价比的产品,会有发展机会。

Q:模型发展对应用有哪些利好?

A:模型发展利好全球应用,推理成本降低且效果变好。对国内应用也是较大利好,现在国内有成本更低、效果与一两个月前OpenAI顶尖模型差不多的产品出现,这对后续应用提升较大。

Q:应用可以分为哪几类?

A:应用分为两类,一类是高容错应用,包括C端的手机、眼镜、耳机,B端的agent等,像企业知识库、问答、聊天、教育等都属于此类,其准确度有限,但能挖掘场景,容错率高,可辅助人并提供情绪价值。

Q:高准确度应用目前体现在哪些场景?

A:高准确度应用目前体现在数学和代码场景。数学在教育领域包括科学方面应用利好,代码方面现在像豆包在coding上达到了较高水平,后期优化界面和易用性有望推开。

Q:代码应用对计算机行业有何影响及前景如何?

A:计算机行业2024年利润率可能不超过2%,人员成本占比约44%。目前很多企业开始尝试用代码类工具,范围较小。预计今年下半年或明年上半年,如果代码类应用能好好推广,在国内工具跟上国际顶级水平的情况下,对整个计算机行业影响较大,值得期待,但需紧密跟踪。

Q:当前大模型及应用的发展状况如何,投资角度有哪些基调?

A:现在大模型水平开始跟上全球顶尖水平,但能持续放量的应用不确定性较高。从投资角度,目前有规模效应且持续扩张的应用不清晰,处于主题投资阶段。在0到1阶段,强者更强,基于DeepSeek和豆包的与应用相关的公司,如端侧的眼镜、玩具、手机及B端的agent方向,都会有持续投资机会,且整个AI应用主题类投资节奏未结束。

Q:为什么说AI应用主题投资阶段没走完?

A:2023年是第一波主题投资,当时条件不具备,如今全世界仍在向人工智能前进,国内快速发展且今年是国产顺利真正的元年。12月以字节为代表的公司受市场情绪周期影响,基于顶尖大厂的AI应用认知不够、可发展性长。从产业角度,大厂进度多,DeepSeek会有很多有意思的应用,以豆包为代表的国内大厂后续催化多,如今年三月份左右可能迎来下一次大会,届时会推出很多有意思的产品,所以主题投资阶段肯定没走完。

Q:AI主题投资在不同阶段有什么特点,投资方向有哪些?

A:0到1阶段,龙头效应强;1到N阶段,可以做大量基于基本面的价值发现。投资方向上,端侧的眼镜、玩具、手机以及B端的agent等主题龙头会持续发酵、公司会扩散。此外,AI方向中,自动驾驶方向明确,国内华为、特斯拉产业链等相关公司已到走趋势阶段,可作为AI验证的扩散器;机器人作为AI应用终极领域,国内大模型提升对其有加持作用。

Q:军工AI有什么投资优势?

A:军工AI需求好预测,中美差距巨大,今年投入会起来;一旦进入军工AI核心公司,格局较好,年度策略里有相关重点公司。

Q:DeepSeek R1模型在技术上有哪些创新点和优势,使其能在性能和成本上取得良好表现?

A:DeepSeek R1模型有诸多创新点和优势。在模型训练方式上,R1ZL直接跳过监督微调步骤,无需标注数据,直接强化学习并取得良好成果;R1模型则先加几千条高质量启动数据微调,后续强化学习采用多阶段不断监督微调,收集了60万条与推理能力相关、20万条与通用能力相关的监督微调数据。在强化学习算法上,推出GRPO算法,与OpenAI的PPO算法有实践差异;奖励机制采用基于规则的奖励,针对数学和代码问题,以代码能否通过编译等作为反馈。此外还发布六个基于开源Llama和千问、用R1大模型蒸馏得到的小模型,效果优于OpenAI mini。在成本方面,R1基于V3模型进行强化学习,V3是混合专家模型MOE,参数量671B,每次激活37B,训练时采用负载均衡策略;V3在14.8万亿token上训练,用2000块H800不到两个月,成本五百多万美元;提出基于FP8精度的混合精度训练框架,在计算密集操作上用八位浮点数,部分算子保留16位或32位精度,平衡了模型性能和成本。

Q:DeepSeek R1模型未来有哪些改进方向?

A:R1模型未来改进方向包括:探索用常识链提升通用能力,目前通用能力不如V3强;优化在中文和英文之外其他语言上出现的混淆问题;提升在软件工程具体工程任务上的表现,如在类似Codeforces、SWE等评测基准中的表现。

Q:预训练模型未来的投入趋势如何,大模型厂商后续重点投入方向在哪里?

A:预计预训练模型投入后续会放缓,除非OpenAI的GPT - 5通过扩大规模取得很好效果,大家可能跟进。因为预训练模型规模扩大的边际效应较低,且网络上高质量文本数据有限。后续训练阶段,强化学习和微调投入资源训练,模型性能提升目前未看到边际效应递减,是未来大模型厂商重点投入方向。

Q:DeepSeek的发展对大模型厂商竞争格局和国产模型发展有何影响?

A:大模型厂商竞争除算力储备外,将进入人才比拼阶段,这利好国产模型。国内互联网大厂和小公司在软件领域与美国差距不像硬件那么大,有望迅速跟进做出世界一流水平的模型。而且用低成本训练出一流模型意味着投入更高成本可能训练出更强模型,当下模型性能比成本更受关注。

Q:DeepSeek的发展对AI在端侧落地以及算力、芯片厂商有何影响?

A:随着基础大模型能力增强,开源蒸馏的小模型能力不断提高,利好AI在端侧落地。在算力方面,长期对推理算力是利好,推理模型输出需要更多token,且模型门槛降低会吸引更多玩家参与。在芯片厂商方面,DeepSeek团队在硬件层面优化良好,国内外很多厂商主动适配其开源模型并提供部署教程,利好国内各种芯片厂商在推理侧进一步发力。

Q:看好哪些国内硬件厂商?美股硬件走势分化,如何看待?

A:在推理侧需求旺盛,长期来看,各家厂商都有机会。国内首推寒武纪,其他厂商如海光以及一些未上市的公司也有机会。如果哪家能和大客户深度绑定,也许能占据较好的生态。海外方面,感觉后续一些公司会占据较大份额。这是个人观点。

-------------------

来源:股市调研

展开阅读全文

APP内打开