休闲

华为发布AI推理创新技术UCM:实现高吞吐、低时延推理体验,降低每Token推理成本

字号+ 作者:智能网联万物互联 来源:综合 2025-08-21 13:27:11 我要评论(0)

新浪科技讯 8月12日下午消息,在2025金融AI推理应用落地与发展论坛上,华为联合中国银联共同发布AI推理创新技术UCM推理记忆数据管理器),实现高吞吐、低时延的推理体验。在当今数字化时代,AI发展

  新浪科技讯 8月12日下午消息,发布在2025金融AI推理应用落地与发展论坛上,推理吞吐n推华为联合中国银联共同发布AI推理创新技术UCM(推理记忆数据管理器),创新实现高吞吐、技术低时延的现高推理体验。

  在当今数字化时代,低时低AI发展日新月异。延推验降大模型训练的理体理成热潮尚未消退,AI推理体验却已悄然成为AI应用的发布关键。中信建投在2025WAIC期间发布的推理吞吐n推白皮书指出,AI正从训练向推理的创新结构性转变而快速增长。在这样的技术大背景下,AI推理体验的现高重要性愈发凸显。

  推理体验直接关系到用户与AI交互时的低时低感受,包括回答问题的延推验降时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。

  据介绍,华为此次发布的AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:郭栩彤

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 关于教师节的作文:最后一个教师节

    关于教师节的作文:最后一个教师节

    2025-08-21 13:22

  • 田馥甄台北举办新专辑记者会 全专辑10首新曲精华抢先曝光

    田馥甄台北举办新专辑记者会 全专辑10首新曲精华抢先曝光

    2025-08-21 12:15

  • 陕西马协成功换届,并成立青少年集训队

    陕西马协成功换届,并成立青少年集训队

    2025-08-21 12:14

  • 12岁小孩姐:3个世界第四,全部刷新PB

    12岁小孩姐:3个世界第四,全部刷新PB

    2025-08-21 10:50

网友点评