DeepSeek带来的AI变革(成本降低约1000倍) pdf下载 免费-www.cqhaiergw.com
摩登7机器人
CHUANGZE ROBOT
当前位置:首页 > 新闻资讯 > 人工智能应用 > DeepSeek带来的AI变革,在低精度FP8的模式下训练大模型,计算成本降低约1000倍

DeepSeek带来的AI变革,在低精度FP8的模式下训练大模型,计算成本降低约1000倍

来源:华福证券     编辑:摩登7   时间:2025/3/6   主题:其他 [加盟]

一、用户量:海外加速出圈,迅速登D下载榜单

1、网页端:重度用户为主,DeepSeek 在 24 年 12 月 26 日推出V3(对标 GPT4o),因其显著的性能,用户迅速开始增长,同时在 1月 20 日发布 R1(对标 GPT-o1)后,进一步出圈。

2、APP 端:大众用户为主,R1 推出后,追平 GPT-o1,迅速出圈海外。根据点点数据,从 DeepSeek 在美国下载排名从 1 月 22 日的 201名,迅速在 1 月 27 日登DD一名;根据七麦数据,截止 1 月 30 日,DeepSeek 在 168 个国家位居下载榜D一名。

二、DeepSeek 偏好激进性创新:架构(MOE+MLA)+精度(FP8)

1、MOE 架构创新:相比过去主流模型的 MOE 专家模型停留在8~16 个,而 DeepSeek 每个 MoE 层包含 1 个共享专家和 256 个路由专家,有助于降低模型推理时激活的参数量。

2、MLA 架构创新:MLA 通过联合压缩键值矩阵为低秩向量,将多个头的键值信息融合,使推理时仅需缓存少量低秩向量,大幅降低 KV 缓存需求,减少内存占用。

3、训练特色:突破大模型训练固定思维(一般模型权重和梯度使用 FP16,优化器参数使用 FP32),敢于尝试在低精度 FP8 的模式下训练大模型,并且该尝试同样出现了较好的效果。

三、DeepSeek 开源对 AI 应用和 AI 终端的影响:产品力竞争时代

DeepSeek 从 V3 到 R1,将进一步推动全行业大模型的提升,更快的追赶 GPT4o 和 GPT-o1;同时成本的下降,有助于 AI 应用和 AI 终端的普及。未来行业竞争将进入“产品能力竞争”,巨头的流量优势将进一步凸显。

四、DeepSeek 对推理成本的影响:用户规模和使用频次

未来推动推理成本增加的核心因素:用户规模和用户使用频次的增加。根据 Grok 创始人,过去 60 年,每10年计算成本降低约1000倍,但人们的购买量增加了 10 万倍,总支出反而增长了 100 倍。




附件:DeepSeek带来的AI变革,在低精度FP8的模式下训练大模型,计算成本降低约1000倍






DeepSeek 引发广泛关注,大模型应用落地将加速,加快大模型在 B 端和 C 端应用场景的落地

DeepSeek大模型的开源,低成本和G性能将大幅降低大模型的获得,部署和应用成本,将加快大模型在 B 端和 C 端应用场景的落地;已应用于端侧、教育、金融、办公、传媒、医疗、智能汽车、企业服务等多个应用场景,应用L域广阔

从DeepSeek看国内AI产业趋势,部署大模型的成本下降,应用有望大规模落地

DeepSeek 降低了单个模型的部署成本,AI 应用有望大规模落地, 推理算力需求将显著增长,相关厂商有望加速进入业绩兑现期,在 AI 应用前沿落地 场景中, AI 应用产业有望迎来共振期

DeepSeek推进技术平权,赋能AI图像应用深耕细作,输入费用 0.55/百万 token

PI 调用层面,DS/OpenAI 的输入费用分别为 0.55/15 美元/百万 token,DS 推理使用成本仅为 OpenAI 的 4%,显著的降低资金门槛,推动了 AI 技术平权

DeepSeek行业级应用白皮书,准确数据洞察与自动化效能提升方法论

准确数据洞察与自动化效能提升方法论;DeepSeek将在企业服务、科研创新等垂直L域深度渗透;DeepSeek将通过开源战略扩大开发者社区规模,并推出模型微调平台和低代码部署工具

周鸿祎清华授课:DeepSeek带来的创业机会

周鸿祎以DeepSeek带来的变革为切入点,深入剖析AI行业发展趋势,并分享了AI技术于创业的应用前景,未来应用将从六大方向实现爆发,企业内部未来一定是多个大模型组合工作

AIGC发展研究3.0版,聚焦于DeepSeek以外的世界

AI生成的回答重复相似,缺乏新意,即使改变提问,无法提供不同的结论;使用更多样的训练数据和算法,提GAI的多样性;优化训练参数, 避免模型陷入局部优

DeepSeek与AI幻觉,普通用户难以辨别AI内容的真实性,对医疗建议、法律咨询等专业场景的可靠性产生怀疑

模型难以处理训练集外的复杂场景,模型过度依赖参数化记忆,普通用户难以辨别AI内容的真实性,可能对医疗建议、法律咨询等专业场景的可 靠性产生长期怀疑

DeepSeek+DeepResearch:让科研像聊天一样简单,垂直L域深耕,流程自动化与认知协作

DeepSeek技术突破与应用场景,冷启动数据与多阶段优化,本地部署与端云协同,垂直L域深耕(医疗、金融、教育);智能协作与自动化转型,消费决策与商业研究赋能

DeepSeek赋能职场(清华大学2),从提示语技巧到多场景应用

你想要生成什么样的文案? 这样的文案具备哪些特征? 你要针对什么生成类似文案? 篇幅、用词、结构优化;批量生成新媒体文案

DeepSeek从入门到精通(清华大学1),采用SPECTRA模型进行任务分解

提示语(Prompt)是用户输入给AI系统的指令或信息,包括指令、上下文和期望,为了更有效地进行任务分解,可以采用SPECTRA模型,能够扫描读取各类文件及图片中的文字内容

DeepSeek提示词工程和落地场景,使用DeepSeek的三种方法,提示词让对话质量提升立竿见影

讲座为DeepSeek原理和应用系列研讨的讲座之一,聚焦提示词工程与产业实践两大核心模块,延续前序对AIGC底层逻辑的探讨,系统拆解如何通过自然语言交互充分释放DeepSeek潜能

DeepSeek与AIGC应用,探讨大模型和AIGC的底层工作机制,突破工具应用的局限

进一步探讨大模型和AIGC的底层工作机制,旨在帮助读者突破工具应用的局限,理解DeepSeek和AIGC的深层次价值。后,介绍如何科学选择与G效使用 AI 工具,为大家提供更具深度与实用性的应用场景的指导,给听众带来更落地的AI应用价值
资料获取
人工智能应用
== 资讯 ==
DeepSeek带来的AI变革,在低精度
DeepSeek 引发广泛关注,大模型应
从DeepSeek看国内AI产业趋势,部
DeepSeek推进技术平权,赋能AI图
DeepSeek行业级应用白皮书,准确数
周鸿祎清华授课:DeepSeek带来的创
AIGC发展研究3.0版,聚焦于Deep
DeepSeek与AI幻觉,普通用户难以
DeepSeek+DeepResearc
DeepSeek赋能职场(清华大学2),
DeepSeek从入门到精通(清华大学1
DeepSeek提示词工程和落地场景,使
DeepSeek与AIGC应用,探讨大模
DeepSeek-R1 \ Kimi 1
DeepSeek 策略三问-AI封锁,有
== 机器人推荐 ==
迎宾讲解服务机器人

服务机器人(迎宾、讲解、导诊...)


            智能服务机器人                   
版权所有 摩登7智能机器人集团股份有限公司 中国运营中心:上海 科技园8号楼5层 中国生产中心:山东日照解放路71号
销售1:4006-935-088 销售2:4006-937-088 客服电话: 4008-128-728