新浪新闻客户端

华为正式开源UCM技术:最大提升22倍 AI推理性能跃升

华为正式开源UCM技术:最大提升22倍 AI推理性能跃升
2025年11月05日 17:08 新浪网 作者 滚动消息

  (来源:快科技)

  快科技11月5日消息,近日,华为宣布针对AI推理加速的关键技术——UCM(Unified Cache Manager)推理记忆数据管理正式开源。

  UCM以KV Cache多级缓存和推理记忆管理为中心,通过推理框架、算力、存储的三层协同,破解长序列推理效率低、成本高的难题,为企业提供更优的AI推理体验。

  据介绍,UCM融合了多类型缓存加速算法工具,可分级管理在推理过程中产生的KV Cache记忆数据。

  UCM具备四大关键能力:稀疏注意力、前缀缓存、预填充卸载、异构PD解耦。

  它实现首Token时延最高降低90%,系统吞吐最大提升22倍,并达到10倍级上下文窗口扩展,显著提升了AI推理性能。

  目前,UCM已在ModelEngine社区开放基础框架与工具链,开发者可通过社区获取UCM源代码与技术文档。

  UCM产品架构

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。
权利保护声明页/Notice to Right Holders

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2025 SINA Corporation

All Rights Reserved 新浪公司 版权所有