5月27日,小米宣布旗下MiMo-V2.5系列大模型API永久降价,最高降幅达99%,引发业界广泛关注。讨论焦点集中在一个问题上:降幅最高达99%,技术上如何实现?
5月30日,小米MiMo大模型团队在官方技术博客发布题为《MiMo-V2.5 系列推理全链路优化:将 Hybrid SWA 效率推向极致》的长文,首次完整公开降价背后的技术路径:一篇覆盖Hybrid SWA + MoE + 多模态组合架构的推理系统全链路优化方案,系统性地将Hybrid SWA的推理效率推向极致。
技术细节首次公开:五大核心突破,实现万亿参数推理系统全链路优化
MiMo-V2.5-Pro是一个万亿参数MoE模型,采用Hybrid SWA架构:70层中60层仅计算局部窗口注意力,10层保留全局视野。理论上,这种设计能将KVCache存储和计算量压至Full Attention的1/7。

“理论上的架构优势,并不会天然转化为真实线上系统中的效率优势。”MiMo团队在技术博客中指出,在生产环境中,分布式缓存状态不一致、前缀匹配语义失效、多级存储搬运延迟等工程挑战,会将理论收益大幅削减。以下五项突破,正是将这一差距补齐的关键。
突破一:KVCache 双池 + SWA-aware 前缀树
将Full和SWA的缓存拆为两个独立池,SWA 严格按窗口大小分配,容量效率提升约 7×。重新设计缓存命中规则,引入"窗口安全长度"匹配规则,解决 SWA 模式下的"伪命中"问题。
突破二:GCache 分布式缓存
直接在GPU机器上混布接管闲余内存与NVMe SSD。额外存储成本为零,单进程RDMA读吞吐170 GB/s,延迟仅280μs。
突破三:KVCache 亲和调度
请求优先路由到已缓存其前缀的实例,L2 命中率 +25%,单机吞吐 +30%,P90 延迟 −30%。
突破四:Decode阶段MTP加速
Prefill阶段同步开启MTP,使其KVCache从首个输出token即有效,前128 token加速2.3倍,128–256 token加速1.5倍,有效降低Agent场景下的实际等待时间。
突破五:多模态推理优化
视频并行解码、跨请求组Batch、GPU预处理、一致性哈希路由——1小时视频端到端处理从156秒降至23秒,Encoder吞吐提升2倍、延时不变。

五项突破分别作用于推理链路的不同环节,存储、缓存、调度、解码、多模态。KVCache双池释放的显存空间,被GCache用于扩大缓存容量;更大的缓存容量提高了命中率;更高的命中率减少了Prefill重算量;Prefill加速又为Decode腾出了更多调度余量。
最终,整条推理链路的成本结构被系统性地改变,这也是降价99%依然能维持收支平衡的技术底气。
技术红利释放:降价节省的成本,全部回馈开发者
MiMo V2.5系列模型降价消息发布后,全球开发者社区迅速被点燃。在海外技术论坛和社交平台上,围绕"降价99%为什么还不亏"的讨论热度持续攀升,大量开发者自发分析 MiMo的推理架构和成本结构。
不少开发者惊叹“优质模型的成本正在以惊人的速度下降,智能的发展速度快得真正无法衡量”。同时还有大量开发者点赞以MiMo为代表的中国模型性能强大、速度快,“中国AI模型比美国AI泡沫模型便宜90%到95%,不仅价格低廉、速度快,并且对于大多数现实世界用例来说足够实用,AI泡沫未来可能被成本曲线崩塌所扼杀。”

在全球知名API调用平台OpenRouter上,Xiaomi MiMo-V2.5系列大模型调用量在迅速攀升,截至5月30日,MiMo-V2.5跻身日榜第三、周榜第十,MiMo-V2.5-Pro跻身日榜第七、周榜第八。


此次技术博客的发布,也是小米MiMo对近期外界质疑的一次正面回应,不仅将一整套模型推理系统全链路优化所节省的成本通过API降价回馈给用户,同时已将这次优化的技术细节以以 PR 形式回馈 SGLang 开源社区,希望尽早让工程优化不再成为门槛,使这类兼具强度与效率的复合架构得到更广泛的探索与应用。
除了降价和开源,MiMo对开发者生态的投入还在持续加码。4月28日推出的“百万亿Token创造者激励计划”已圆满收官:总申请人数超过54万人,覆盖科研学术、制造工业等行业,累计发放100万亿免费Token,折合人民币超6500万元。
同期启动的「Agent生态共建计划」面向Agent框架团队提供Token扶持,首批13家合作伙伴名单已公布,小米为这些框架和合作方提供了限免Token支持。“开源的价值不止于权重公开,更在于生态共建。”小米MiMo团队表示。
从开源模型权重、公开推理系统优化细节,到百亿Token激励、Agent生态共建,小米正在构建一条从技术底座到开发者生态的完整路径:让Token越来越便宜、越来越普惠,让AI从少数人的工具变成人人可及的基础设施。
在小米的推动下,Token有望成为拉动存储芯片、算力芯片、电力基础设施等上游产业链的全新增长极,驱动整个AI行业进入下一个发展周期。
