小米17 Ultra iPhone 17 OPPO Find X9 一加15 vivo X300

为什么敢降价99%？Xiaomi MiMo披露全链路推理技术优化细节

时间：2026年05月30日栏目：业界动态来源：原创编辑：西瓜

5月27日，小米宣布旗下MiMo-V2.5系列大模型API永久降价，最高降幅达99%，引发业界广泛关注。讨论焦点集中在一个问题上：降幅最高达99%，技术上如何实现？

5月30日，小米MiMo大模型团队在官方技术博客发布题为《MiMo-V2.5 系列推理全链路优化：将 Hybrid SWA 效率推向极致》的长文，首次完整公开降价背后的技术路径：一篇覆盖Hybrid SWA + MoE + 多模态组合架构的推理系统全链路优化方案，系统性地将Hybrid SWA的推理效率推向极致。

技术细节首次公开：五大核心突破，实现万亿参数推理系统全链路优化

MiMo-V2.5-Pro是一个万亿参数MoE模型，采用Hybrid SWA架构：70层中60层仅计算局部窗口注意力，10层保留全局视野。理论上，这种设计能将KVCache存储和计算量压至Full Attention的1/7。

为什么敢降价99%？Xiaomi MiMo披露全链路推理技术优化细节

“理论上的架构优势，并不会天然转化为真实线上系统中的效率优势。”MiMo团队在技术博客中指出，在生产环境中，分布式缓存状态不一致、前缀匹配语义失效、多级存储搬运延迟等工程挑战，会将理论收益大幅削减。以下五项突破，正是将这一差距补齐的关键。

突破一：KVCache 双池 + SWA-aware 前缀树

将Full和SWA的缓存拆为两个独立池，SWA 严格按窗口大小分配，容量效率提升约 7×。重新设计缓存命中规则，引入"窗口安全长度"匹配规则，解决 SWA 模式下的"伪命中"问题。

突破二：GCache 分布式缓存

直接在GPU机器上混布接管闲余内存与NVMe SSD。额外存储成本为零，单进程RDMA读吞吐170 GB/s，延迟仅280μs。

突破三：KVCache 亲和调度

请求优先路由到已缓存其前缀的实例，L2 命中率 +25%，单机吞吐 +30%，P90 延迟 −30%。

突破四：Decode阶段MTP加速

Prefill阶段同步开启MTP，使其KVCache从首个输出token即有效，前128 token加速2.3倍，128–256 token加速1.5倍，有效降低Agent场景下的实际等待时间。

突破五：多模态推理优化

视频并行解码、跨请求组Batch、GPU预处理、一致性哈希路由——1小时视频端到端处理从156秒降至23秒，Encoder吞吐提升2倍、延时不变。

为什么敢降价99%？Xiaomi MiMo披露全链路推理技术优化细节

五项突破分别作用于推理链路的不同环节，存储、缓存、调度、解码、多模态。KVCache双池释放的显存空间，被GCache用于扩大缓存容量；更大的缓存容量提高了命中率；更高的命中率减少了Prefill重算量；Prefill加速又为Decode腾出了更多调度余量。

最终，整条推理链路的成本结构被系统性地改变，这也是降价99%依然能维持收支平衡的技术底气。

技术红利释放：降价节省的成本，全部回馈开发者

MiMo V2.5系列模型降价消息发布后，全球开发者社区迅速被点燃。在海外技术论坛和社交平台上，围绕"降价99%为什么还不亏"的讨论热度持续攀升，大量开发者自发分析 MiMo的推理架构和成本结构。

不少开发者惊叹“优质模型的成本正在以惊人的速度下降，智能的发展速度快得真正无法衡量”。同时还有大量开发者点赞以MiMo为代表的中国模型性能强大、速度快，“中国AI模型比美国AI泡沫模型便宜90%到95%，不仅价格低廉、速度快，并且对于大多数现实世界用例来说足够实用，AI泡沫未来可能被成本曲线崩塌所扼杀。”

为什么敢降价99%？Xiaomi MiMo披露全链路推理技术优化细节

在全球知名API调用平台OpenRouter上，Xiaomi MiMo-V2.5系列大模型调用量在迅速攀升，截至5月30日，MiMo-V2.5跻身日榜第三、周榜第十，MiMo-V2.5-Pro跻身日榜第七、周榜第八。

为什么敢降价99%？Xiaomi MiMo披露全链路推理技术优化细节

此次技术博客的发布，也是小米MiMo对近期外界质疑的一次正面回应，不仅将一整套模型推理系统全链路优化所节省的成本通过API降价回馈给用户，同时已将这次优化的技术细节以以 PR 形式回馈 SGLang 开源社区，希望尽早让工程优化不再成为门槛，使这类兼具强度与效率的复合架构得到更广泛的探索与应用。

除了降价和开源，MiMo对开发者生态的投入还在持续加码。4月28日推出的“百万亿Token创造者激励计划”已圆满收官：总申请人数超过54万人，覆盖科研学术、制造工业等行业，累计发放100万亿免费Token，折合人民币超6500万元。

同期启动的「Agent生态共建计划」面向Agent框架团队提供Token扶持，首批13家合作伙伴名单已公布，小米为这些框架和合作方提供了限免Token支持。“开源的价值不止于权重公开，更在于生态共建。”小米MiMo团队表示。

从开源模型权重、公开推理系统优化细节，到百亿Token激励、Agent生态共建，小米正在构建一条从技术底座到开发者生态的完整路径：让Token越来越便宜、越来越普惠，让AI从少数人的工具变成人人可及的基础设施。

在小米的推动下，Token有望成为拉动存储芯片、算力芯片、电力基础设施等上游产业链的全新增长极，驱动整个AI行业进入下一个发展周期。

加入收藏 点赞(0) 踩(0)

为什么敢降价99%？Xiaomi MiMo披露全链路推理技术优化细节

最新文章

相关文章

资讯APP上看三易生活

大家都在看