一、用户量:海外加速出圈,迅速登D下载榜单
1、网页端:重度用户为主,DeepSeek 在 24 年 12 月 26 日推出V3(对标 GPT4o),因其显著的性能,用户迅速开始增长,同时在 1月 20 日发布 R1(对标 GPT-o1)后,进一步出圈。
2、APP 端:大众用户为主,R1 推出后,追平 GPT-o1,迅速出圈海外。根据点点数据,从 DeepSeek 在美国下载排名从 1 月 22 日的 201名,迅速在 1 月 27 日登DD一名;根据七麦数据,截止 1 月 30 日,DeepSeek 在 168 个国家位居下载榜D一名。
二、DeepSeek 偏好激进性创新:架构(MOE+MLA)+精度(FP8)
1、MOE 架构创新:相比过去主流模型的 MOE 专家模型停留在8~16 个,而 DeepSeek 每个 MoE 层包含 1 个共享专家和 256 个路由专家,有助于降低模型推理时激活的参数量。
2、MLA 架构创新:MLA 通过联合压缩键值矩阵为低秩向量,将多个头的键值信息融合,使推理时仅需缓存少量低秩向量,大幅降低 KV 缓存需求,减少内存占用。
3、训练特色:突破大模型训练固定思维(一般模型权重和梯度使用 FP16,优化器参数使用 FP32),敢于尝试在低精度 FP8 的模式下训练大模型,并且该尝试同样出现了较好的效果。
三、DeepSeek 开源对 AI 应用和 AI 终端的影响:产品力竞争时代
DeepSeek 从 V3 到 R1,将进一步推动全行业大模型的提升,更快的追赶 GPT4o 和 GPT-o1;同时成本的下降,有助于 AI 应用和 AI 终端的普及。未来行业竞争将进入“产品能力竞争”,巨头的流量优势将进一步凸显。
四、DeepSeek 对推理成本的影响:用户规模和使用频次
未来推动推理成本增加的核心因素:用户规模和用户使用频次的增加。根据 Grok 创始人,过去 60 年,每10年计算成本降低约1000倍,但人们的购买量增加了 10 万倍,总支出反而增长了 100 倍。
附件:DeepSeek带来的AI变革,在低精度FP8的模式下训练大模型,计算成本降低约1000倍

DeepSeek大模型的开源,低成本和G性能将大幅降低大模型的获得,部署和应用成本,将加快大模型在 B 端和 C 端应用场景的落地;已应用于端侧、教育、金融、办公、传媒、医疗、智能汽车、企业服务等多个应用场景,应用L域广阔
DeepSeek 降低了单个模型的部署成本,AI 应用有望大规模落地, 推理算力需求将显著增长,相关厂商有望加速进入业绩兑现期,在 AI 应用前沿落地 场景中, AI 应用产业有望迎来共振期
PI 调用层面,DS/OpenAI 的输入费用分别为 0.55/15 美元/百万 token,DS 推理使用成本仅为 OpenAI 的 4%,显著的降低资金门槛,推动了 AI 技术平权
准确数据洞察与自动化效能提升方法论;DeepSeek将在企业服务、科研创新等垂直L域深度渗透;DeepSeek将通过开源战略扩大开发者社区规模,并推出模型微调平台和低代码部署工具
周鸿祎以DeepSeek带来的变革为切入点,深入剖析AI行业发展趋势,并分享了AI技术于创业的应用前景,未来应用将从六大方向实现爆发,企业内部未来一定是多个大模型组合工作
AI生成的回答重复相似,缺乏新意,即使改变提问,无法提供不同的结论;使用更多样的训练数据和算法,提GAI的多样性;优化训练参数, 避免模型陷入局部优
模型难以处理训练集外的复杂场景,模型过度依赖参数化记忆,普通用户难以辨别AI内容的真实性,可能对医疗建议、法律咨询等专业场景的可 靠性产生长期怀疑
DeepSeek技术突破与应用场景,冷启动数据与多阶段优化,本地部署与端云协同,垂直L域深耕(医疗、金融、教育);智能协作与自动化转型,消费决策与商业研究赋能
你想要生成什么样的文案? 这样的文案具备哪些特征? 你要针对什么生成类似文案? 篇幅、用词、结构优化;批量生成新媒体文案
提示语(Prompt)是用户输入给AI系统的指令或信息,包括指令、上下文和期望,为了更有效地进行任务分解,可以采用SPECTRA模型,能够扫描读取各类文件及图片中的文字内容
讲座为DeepSeek原理和应用系列研讨的讲座之一,聚焦提示词工程与产业实践两大核心模块,延续前序对AIGC底层逻辑的探讨,系统拆解如何通过自然语言交互充分释放DeepSeek潜能
进一步探讨大模型和AIGC的底层工作机制,旨在帮助读者突破工具应用的局限,理解DeepSeek和AIGC的深层次价值。后,介绍如何科学选择与G效使用 AI 工具,为大家提供更具深度与实用性的应用场景的指导,给听众带来更落地的AI应用价值