当前位置：首页 > 新闻资讯 > 人工智能应用 > DeepSeek带来的AI变革,在低精度FP8的模式下训练大模型,计算成本降低约1000倍

DeepSeek带来的AI变革,在低精度FP8的模式下训练大模型,计算成本降低约1000倍

来源：华福证券编辑：摩登7 时间：2025/3/6 主题：其他 [加盟]

一、用户量：海外加速出圈，迅速登D下载榜单

1、网页端：重度用户为主，DeepSeek 在 24 年 12 月 26 日推出V3（对标 GPT4o），因其显著的性能，用户迅速开始增长，同时在 1月 20 日发布 R1（对标 GPT-o1）后，进一步出圈。

2、APP 端：大众用户为主，R1 推出后，追平 GPT-o1，迅速出圈海外。根据点点数据，从 DeepSeek 在美国下载排名从 1 月 22 日的 201名，迅速在 1 月 27 日登DD一名；根据七麦数据，截止 1 月 30 日，DeepSeek 在 168 个国家位居下载榜D一名。

二、DeepSeek 偏好激进性创新：架构（MOE+MLA）+精度（FP8）

1、MOE 架构创新：相比过去主流模型的 MOE 专家模型停留在8~16 个，而 DeepSeek 每个 MoE 层包含 1 个共享专家和 256 个路由专家，有助于降低模型推理时激活的参数量。

2、MLA 架构创新：MLA 通过联合压缩键值矩阵为低秩向量，将多个头的键值信息融合，使推理时仅需缓存少量低秩向量，大幅降低 KV 缓存需求，减少内存占用。

3、训练特色：突破大模型训练固定思维（一般模型权重和梯度使用 FP16，优化器参数使用 FP32），敢于尝试在低精度 FP8 的模式下训练大模型，并且该尝试同样出现了较好的效果。

三、DeepSeek 开源对 AI 应用和 AI 终端的影响：产品力竞争时代

DeepSeek 从 V3 到 R1，将进一步推动全行业大模型的提升，更快的追赶 GPT4o 和 GPT-o1；同时成本的下降，有助于 AI 应用和 AI 终端的普及。未来行业竞争将进入“产品能力竞争”，巨头的流量优势将进一步凸显。

四、DeepSeek 对推理成本的影响：用户规模和使用频次

未来推动推理成本增加的核心因素：用户规模和用户使用频次的增加。根据 Grok 创始人，过去 60 年，每10年计算成本降低约1000倍，但人们的购买量增加了 10 万倍，总支出反而增长了 100 倍。