1. What:DeepSeek是什么?
定位:
DeepSeek-R1是国内开源推理大模型,具备**思维链(Chain-of-Thought)**能力,能通过分步推理解决复杂问题(如数学、逻辑题)。
相比传统生成式模型(如ChatGPT),其优势在于准确性G、价格低廉、训练G效,且支持本地部署。
核心亮点:
价格“屠夫”:API成本仅为OpenAI同类模型的1/10,网页聊天免费。
纯国产技术创新:模型架构(如MoE、MLA)和训练方法(Rule-based Reward)实现G效推理。
性能L先:在数学、代码生成等任务中超越国际主流模型(如GPT-4)。
用户普及快:7天用户破亿,打破ChatGPT记录,推动AI技术“飞入寻常百姓家”。
2. How:如何使用DeepSeek?
应用场景:
生成与创作:写代码、论文、诗歌,设计科普讲稿,辅助编译原理书稿。
数据分析:整理信息(如公务员录用数据)、行业报告生成。
咨询与决策:研究方向建议、心理咨询、行程规划。
方法论:
思维方法:拆分任务、结合外部数据(RAG)、多次迭代调优。
注意事项:
模型存在局限性(如知识截止日期、无法处理多模态数据、上下文长度限制)。
需结合联网搜索、知识库及其他工具(如智能体)提升结果可靠性。
3. Why:DeepSeek为何有效?
技术基础:
Transformer架构:通过Embedding、Attention机制(多头注意力)、MLP实现上下文理解与推理。
规模效应:参数规模(671B)与数据量(数万亿Token)的扩大带来“涌现”能力(如跨语言任务迁移)。
发展历程:
从早期跟随LLaMA开源模型,到通过MoE架构(混合专家模型)、FP8训练等创新实现技术突破。
训练中结合监督微调(SFT)与强化学习(RL),优化推理对齐与效率。
4. Next:未来关注方向
生态爆发:
行业应用:医疗、教育、交通等L域需结合垂直场景开发工具。
关键技术:
国产AI芯片与G性能互连:突破NV算力垄断,降低训练与推理成本。
开放平台与知识库服务:构建标准化接口与数据生态,降低开发门槛。
人才培养:亟需精通系统软件(如推理引擎、训练框架)的复合型人才。
趋势判断:
量变到质变:DeepSeek推动AI从“精英工具”变为“全民生产力”,可能引发新一轮技术革命。
总结
陈果教授强调,DeepSeek代表国产大模型的重大突破,但其价值不仅限于技术本身,更在于降低AI使用门槛,推动社会生产效率变革。用户需理性看待其能力边界,善用思维方法与工具组合,同时关注国产芯片、开放生态等关键L域的发展。
附件:摩登7该如何看待DeepSeek_what_how_why and next,AI变为全民生产力,推动社会生产效率变革

低价API和免费使用吸引大量用户,市场份额快速扩张;G效训练架构(如“萤火”集群)、专家模型架构、DualPipe算法等突破;智能体爆发:各行业应用生态繁荣,如医疗、金融、内容创作等
日常生活中可用于写演讲稿,制定旅游攻略等;职场中能整理会议纪要,写代码,做数据分析等;自媒体人可用其写脱口秀段子,诗歌等,DeepSeek可进行个股分析,板块投资分析,市场行情分析,还能辅助构建量化交易模型
DeepSeek采用MLA多层注意力架构,改进了传统多头注意力(MHA)机制,单卡就能支持千亿参数模型部署,推理速度提升3倍以上,通过FP8量化技术压缩训练能耗70%
给出了中小学生和家长向DeepSeek提问的十大原则,能让DeepSeek快速抓住重点,DeepSeek能进行个性化阅读推荐,激发了学生的阅读兴趣,涵盖了中小学生学习和成长的各个关键L域
DeepSeek的7天使用指导手册,旨在帮助用户从入门到精通使用这款AI工具,涵盖基础操作,多场景应用,提升学习能力等内容,涵盖论文精读、错题攻克、会议纪要整理和个人知识库创建
教程主要围绕智能AI助手DeepSeek展开,涵盖其功能特性、使用方法、技巧策略、问题应对及资源拓展等内容,帮助零基础用户快速上手并熟练运用该工具
DeepSeek的基本用法,无需复杂结构,直接描述需求即可,适当提供背景信息或明确需求会让结果更准确;图片类AIGC的应用场景非常广泛,主要包括图像生成、图像修复、图像增强和图像识别等方面
在客户服务,个性化推荐等多场景有应用;还可与 RPA,知识图谱等技术融合,优化企业业务流程;瑞金医院、东莞市人工智能大模型中心、云南白药集团、厦门市合趣信息科技有限公司、天士力集团的大模型应用实践
大模型训练数据来源广泛,可能带来新工作机会与每周 4 天工作制等变革,重塑产业生态与社会结构,重新定义知识学习与应用边界,促使教育范式向多面引入 AI 能力方向重构
DeepSeek包括生成模型 V3 和推理模型 R1,基于上下文预测下一个 token,使用通用公式,激发深度思考等,提升对话质量,适用于推理密集型任务,教育与知识应用,文档分析,开放L域问答写作等场景
本地化部署DeepSeek的基本方法,了解更专业的企业级部署方法,讲解Unsloth R1动态量化部署的三种实 现路径:基于llama.cpp、KTransformers以及Ollama框架动态量化部署
美国在 GenAIL域的L先地位正在被中国迎头赶上,AI 供应链格局将被重塑;开放权重模型正在推动基础模型层商品化,为应用开发者带来新机遇;扩大规模并非通往 AI 进步的途径