华为公司副总裁周跃峰:AI推理进入“Token经济”时代,效率与成本需双向突破
2025/08/13 | 作者 陶娅洁 | 编辑 崔陆鹏
摘要:基于此,华为发布了AI推理创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级、提升推理性价比,加速AI商业正循环。
“AI时代,模型训练、推理效率与体验的量纲都以Token数为表征,Token经济已经到来。”8月12日,华为公司副总裁、数据存储产品线总裁周跃峰博士在2025金融AI推理应用落地与发展论坛上表示,AI推理正迎来爆发式增长,推理体验与成本已成为衡量模型价值的核心指标。

而如何在推理效率与成本之间找到最佳平衡点,成为全行业亟待解决的重要课题。
基于此,华为发布了AI推理创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级、提升推理性价比,加速AI商业正循环。华为同时携手中国银联率先在金融典型场景开展UCM技术试点应用,并联合发布智慧金融AI推理加速方案应用成果。
据悉,UCM推理记忆数据管理器由三大组件构成,包括对接不同引擎与算力的推理引擎插件(Connector)、支持多级KV Cache管理及加速算法的功能库(Accelerator)以及高性能KV Cache存取适配器(Adapter),通过推理框架、算力、存储三层协同,实现AI推理“更优体验、更低成本”。
具体来看,依托UCM层级化自适应的全局前缀缓存技术,系统能直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%。同时,UCM将超长序列Cache分层卸载至外置专业存储,通过算法创新突破模型和资源限制,实现推理上下文窗口10倍级扩展,满足长文本处理需求。
此外,UCM具备智能分级缓存能力,可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动;同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理Token数)提升2-22倍,显著降低每Token推理成本,为企业减负增效。
在与中国银联的联合试点中,UCM的技术价值得到验证。在“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度提升125倍,10秒即可精准识别客户高频问题。
值得一提的是,论坛现场,华为正式公布了UCM开源计划,通过开放统一的南北向接口,可适配多类型推理引擎框架、算力及存储系统。今年9月UCM将正式开源,后续逐步贡献给业界主流推理引擎社区,携手全产业共同推动AI推理生态的繁荣发展。
ABOUT / 相关报道