DeepSeek 再次震惊寰球：价钱只有 OpenAI 1/25，利润率却高出 500%

2025-03-02 09:34

择要DeepSeek 开源周真正的意思，藏在明天的彩蛋里。从前一周，DeepSeek 持续开放了 5 个 Infra 名目的源代码，合法各人认为这场开源盛宴曾经停止。刚，DeepSeek 的彩蛋来了！开源周 Day6，DeepSeek 官方团队在 Github 跟知乎给出了 DeepSeek-V3 / R1 推理体系的技巧解读。先说论断：经由过程优化吞吐跟耽误，DeepSeek「实践上一天的总收入为 $562,027，本钱利润率 545%。」灵敏的网友——如 MenloVentures 投资人 Deedy 翻译了这象征着什么：「实践 ARR 2 亿美金、利润率超越 500%，如许的贸易效力理当是一家值 100 亿美金的公司。」

从 2024 年 5 月宣布 DeepSeekV2 以来，DeepSeek 模子效劳就以「价钱屠夫」示众，老是比行业其余模子廉价 1/10 阁下，质疑 DeepSeek 赔本打价钱战的声响也始终有。经由过程这 5 天开放源代码以及明天的推理体系概述，这一疑虑也被消除，能够预感，模子推理价钱越来越累赘得起，且效劳供给方也有得赚。这一变乱的影响也能够经由过程 X 平台网友展示出刷屏的惊喜得以一窥，「本钱利润率 545%，即是说你是在告知我，我被 Open AI 掳掠了？开源周 Day7 的彩蛋皇冠app下载是 AGI？」但更年夜的旌旗灯号指向生态搭档，安排 DeepSeek 有得赚。一位 AI 范畴的投资人向极客公园论述，「官方技巧解读标明，云平台跟高低游经由过程安排 DeepSeek 的效劳，实践上收益跟利润率能够到达很高」。无论是对供给在线推理、仍是私有化安排等效劳的供给商，都是利好。在这波 DeepSeek 热中受益的云平台硅基活动开创人袁进辉也在第一时光宣布了本人的感触，「DeepSeek 官方表露年夜范围安排本钱跟收益，又一次推翻了良多人认知。」但须要时光适配 DeepSeek V3/R1 模子架构，他表现「当初良多供给商还做不到这个程度，重要是 V3/R1 架构跟别的主流模子差异太年夜了，由大批小 Expert 构成，招致对准别的主流模子构造开辟的体系都不再无效，必需依照 DeepSeek 讲演描写的方式才干到达最好的效力，而开辟如许的体系难度很高，须要时光」。他进一步指呈现在复现如许的推理效劳的难度以及 DeepSeek 可能的策略思考，「幸亏这周 DeepSeek 五连发曾经把重要模块开源出来了，下降了社区复现的难度。这些结果充足表现了 DeepSeek 团队第一性道理的思考方法跟刁悍的意志，他们应当是起首是基于某些起因（？）想到了用如许的模子构造，而后发明如许的构造无论是练习仍是推理，要做好都有十分188金宝搏体育年夜的工程挑衅，不外这些成绩在他们工程团队来说并不是搞不定的，要害是花那么鼎力气做完能否有年夜的收益呢，在终极成果出来前，谁也说禁绝，他们仍是赌了，成果是赌对了。也可能是反过去的，基于体系的动身点计划了如许一个全新的模子构造。」在 DeepSeek 官方讲演中也提醒了 DeepSeek-V3 / R1 推理体系的优化目的是：更年夜的吞吐，更低的耽误。共同技巧解读，DeepSeek 开源周放出的 5 个代码库带来的影响力才刚开端。附：《DeepSeek-V3 / R1 推理体系概览全文DeepSeek-V3 / R1 推理体系的优化目的是：更年夜的吞吐，更低的耽误。为了实现这两个目的，咱们的计划是应用年夜范围跨节点专家并行（Expert Parallelism / EP）。起首 EP 使得 batch size 年夜年夜增添，从而进步 GPU 矩阵乘法的效力，进步吞吐。其次 EP 使得专家疏散在差别的 GPU 上，每个 GPU 只要要盘算很少的专家（因而更少的访存需要），从而下降耽误。但 EP 同时也增添了体系的庞杂性。庞杂性重要表现在两个方面：EP 引入跨节点的传输。为了优化吞吐，须要计划适合的盘算流程使得传输跟盘算能够同步停止。EP 波及多个节点，因而自然须要 Data Parallelism（DP），差别的 DP 之间须要停止负载平衡。因而，本文的重要内容是怎样应用 EP 增年夜 batch size，怎样暗藏传输的耗时，怎样停止负载平衡。01 年夜范围跨节点专家并行（Expert Parallelism / EP）因为 DeepSeek-V3 / R1 的专家数目浩繁，而且每层 256 个专家中仅激活此中 8 个。模子的高度稀少性决议了咱们必需采取很年夜的 overall batch size，才干给每个专家供给充足的 expert batch size，从而实现更年夜的吞吐、更低的延时。须要年夜范围跨节点专家并行（Expert Parallelism / EP）。咱们采取多机多卡间的专家并行战略来到达以下目标：Prefill：路由专家 EP32、MLA 跟共享专家 DP32，一个安排单位是 4 节点，32 个冗余路由专家，每张卡 9 个路由专家跟 1 个共享专家Decode：路由专家 EP144、MLA 跟共享专家 DP144，一个安排单位是 18 节点，32 个冗余路由专家，每张卡 2 个路由专家跟 1 个共享专家02 盘算通讯堆叠多机多卡的专家并行会引入比拟年夜的通讯开支，以是咱们应用了双 batch 堆叠来掩饰通讯开支，进步团体吞吐。对 prefill 阶段，两个 batch 的盘算跟通讯交织停止，一个 batch 在停止盘算的时间能够去掩饰另一个 batch 的通讯开支；