高通重构端侧AI基础能力,携手合作伙伴推进GenAI端侧部署

12月3-5日,中国电信2024数字科技生态大会在广州举办,本届大会以“AI赋能 共筑数字新生态”为主题,分享促进千行百业数字化转型和智能化升级方面的重要成果。12月4日,高通公司AI产品技术中国区负责人万卫星受邀出席终端技术标准与创新合作论坛,并带来以“终端侧AI创新开启智能计算全新体验”为主题的精彩演讲。万卫星指出,当前在手机、PC等不同AI产品终端上的AI用例,正在被终端侧AI的强大能力重塑。

 

会上,他分享了高通公司如何通过重构终端侧AI基础能力,开启全新智能体验。最新一代骁龙8至尊版移动平台的高通Oryon CPU、高通Adreno GPU、Hexagon NPU、高通传感器中枢以及全新升级的AI-ISP构成具有强大终端侧AI能力的异构计算系统,在终端侧生成式AI技术上实现了诸多升级。除了强大的硬件能力,高通还提供一整套高通AI软件栈,以便开发者在骁龙平台上进行模型部署和优化。基于强大的终端侧AI能力和完善的模型部署支持,高通正在携手智谱和腾讯混元等领先厂商,共同推进生成式AI在终端侧的部署工作,探索终端侧多模态生成式AI用例的更多可能。

高通重构端侧AI基础能力,携手合作伙伴推进GenAI端侧部署

 

以下为演讲全文:

 

尊敬的各位嘉宾、各位现场的朋友,大家上午好。我是高通技术公司的万卫星,很荣幸今天能够参加大会,给大家分享高通公司如何通过终端侧AI创新开启智能计算全新体验。

 

首先我们来看一下,目前生成式AI规模化扩展所面临的挑战。根据公开数据,仅针对网络搜索这样的简单用例,用生成式AI替代传统搜索模式,单次推理成本会增加约10倍。这仅仅是一个用例的推理成本增加。再结合生成式AI带来的诸多用例,包括图像和视频的创作和生成、文本摘要、对话等等,再结合数10亿用户的推理需求,如此众多的用例和用户,将给生成式AI的规模化扩展带来巨大的成本压力。

 

同时,正如前面嘉宾所介绍,我们看到未来AI推理正逐渐从中心云向边缘云,以及向终端侧迁移。我们看到未来生成式AI的规模化扩展,将是一个跨云端和终端的协同运行模式,一些简单的用例可能会完全在终端设备上运行,而一些复杂的、对技术能力要求较高的用例可能在云端运行,未来AI应用将大概率采用端云协同的方式。

 

我们看到,当前在手机、PC等不同终端产品上的AI用例,正在被终端侧AI的强大能力重塑。

 

举个例子,现在备受关注的是“AI智能体”的概念。AI智能体可以输入多模态的数据,包括语音信号、声音信号、文本信号、图片信号、视觉信号等,根据输入数据的不同模态以及需要处理的下游具体任务,AI智能体会调用一些本地的工具或数据,再结合底层运行的不同大模型,比如自动语音识别模型(ASR)、语言视觉大模型(LVM)、大语言模型(LLM)甚至多模态模型(LMM),去执行更复杂的后端任务,这些任务会涉及娱乐、商务等方面。简而言之,用户通过一些简单指令,即可完成对复杂任务的规划和安排。

 

高通作为芯片厂商,如何在终端侧实现这些复杂的AI用例呢?我们重构了整个终端侧AI的基础能力,这些基础能力包括从底层的硬件SoC设计,到上层软件的框架,再到更高层的各种软件工具和编译器等等,包括前面提到的AI智能体规划器、检索增强生成(RAG)等等。

 

我们先从硬件开始看,给大家详细介绍一下,这款为AI重塑的、具有强大终端侧AI能力的异构计算系统——最新一代骁龙8至尊版。异构计算,是指我们的SoC上有多个可以带来终端侧AI推理加速的处理器(IP)组件,包括CPU、GPU、NPU和高通传感器中枢。

 

首先是CPU。我们首次在移动平台上采用自研的高通Oryon CPU,提供了强大的浮点和整数运算性能,它可以为系统应用以及第三方APP的启动带来超低时延,同时也可以针对在CPU上运行的AI推理进行加速。

 

除了高通Oryon CPU,前面也介绍到我们的高通Adreno GPU、Hexagon NPU和高通传感器中枢,以及全新升级的AI-ISP,它们都具有不同的功能。比如Adreno GPU特别适合图形渲染和管线处理,Hexagon NPU适用于高算力、低功耗的AI推理加速。

 

高通Hexagon NPU是我们专为生成式AI打造的NPU,让我们看看其中的技术细节。高通Hexagon NPU里包含三大硬件加速器,针对目前AI领域比较主流的标量、矢量和张量数据类型,每个数据类型我们都有专门的处理器(IP)进行加速。

 

具体来讲,第一,我们持续增加张量加速器内核,以提高硬件算力,这将为大视觉模型(LVM)等对算力要求较高的用例带来极大性能提升。

 

第二,考虑到大语言模型(LLM)很多都基于transformer架构,我们也增加了更多的标量和向量加速器内核,以提高transformer模型的性能表现。同时,在传统影像处理领域,包括人像分割、背景虚化、HDR、降噪等多场景并发处理中,增加标量和向量加速器内核同样可以为大语言模型及传统并发场景带来极大的性能提升。

 

与前代平台第三代骁龙8相比,骁龙8至尊版的标量加速器内核数量从6个增加到8个。除此之外,向量加速器内核也提升50%,从4核变成6核,同时还支持更长的上下文输入。

 

正如前面演讲嘉宾所提到的,对于大语言模型(LLM)和AI而言,DDR的吞吐量是一个限制因素。因此,在骁龙8至尊版上,我们提高了所有处理器(IP)内核DDR内存吞吐量的上限。

 

此外,还有高通传感器中枢。这里给大家展开介绍一下,高通传感器中枢特别适用于两种场景,第一种是需要始终开启的场景,比如始终开启的手势识别、语音唤醒等,这些场景对功耗非常敏感。

 

前面演讲嘉宾也分享了,目前终端侧AI最大的优势之一就是隐私保护以及个性化服务。高通传感器中枢还适用于处理用户手机中各类传感器隐私数据和个性化数据。与前代平台第三代骁龙8相比,骁龙8至尊版传感器中枢性能提升高达60%,内存提升34%。

 

除了强大的硬件能力外,我们还提供一整套高通AI软件栈,方便大家在骁龙平台上进行模型部署和优化。让我们从上往下看看完整的高通AI软件栈。

 

首先,最上层是AI框架,包括TensorFlow、PyTouch、ONNX、Keras等主流框架,高通都可以提供支持。

 

AI框架之下是AI runtime。高通为合作伙伴和开发者提供两个runtime去调用,一个是高通神经网络处理SDK,另一个是高通AI引擎Direct。此外,市场上开源的各类推理runtime,例如ONNX、DirectML、TFLite、ExecuTorch等,高通也提供支持。同时,如果合作伙伴有自己的runtime,也可以通过调用高通AI引擎Direct的接口,直接将自己的runtime部署在骁龙平台上。

 

在runtime之下,我们还会提供各种加速库供开发者调用,包括编译器、各种编程语言以及分析器和调试器。大家都知道,将一个AI模型,尤其是生成式AI模型部署到终端侧时,内存、性能和功耗能否满足产品落地要求是一个非常具有挑战性的问题。因此,从这个角度来讲,工具链和编译器对开发者来说是非常重要的。

 

除了这些开发者工具之外,我们还提供一个模拟平台,在开发者实际获得骁龙平台之前,也可以通过模拟器来模拟算法在骁龙平台上的部署效果。通过这种方式,开发者可以预先了解算法的性能表现和各种性能指标。

 

接下来,是我们的硬件加速和加速器驱动等。再往下是系统层面。可以看到,高通拥有非常丰富的产品线,不仅有手机,还有PC、汽车、XR以及各种IoT设备。这些设备在硬件形态上各不相同,运行的操作系统(OS)也各有差异。高通AI软件栈能够支持这些不同产品线上的所有OS。

 

高通AI软件栈是跨终端、跨平台、跨OS的统一软件栈,开发者只需在某一个骁龙平台上完成模型的开发、部署和优化工作,便能将这些工作轻松迁移到其他骁龙平台上,实现“一次开发,多次部署”。

 

同时,高通还与众多合作伙伴携手,共同推进生成式AI在终端侧的部署工作。接下来我将为大家分享几个具体的合作案例。这个视频是我们跟合作伙伴智谱在骁龙峰会上的联合发布,我们首次将多模态模型带到终端侧,并实现了超过70 tokens/秒的高速运行。

 

刚刚,我们已经展示了高通对多模态模型的支持能力,我们相信未来在终端侧运行多模态将成为一种趋势,因为我们所处的现实世界本身就是一个多模态的物理世界。这个视频也是希望给大家展示,在终端侧运行多模态模型将如何使我们的日常生活和工作更加便利。

 

前段时间,高通公司与腾讯混元合作,基于最新一代骁龙8至尊版展开对混元模型的支持。我们成功运行了混元10亿、30亿和70亿参数版本的端侧模型,为终端侧生成式AI的推广带来更多可能。基于骁龙8至尊版强大的终端侧AI能力,结合统一的高通AI软件栈,我们相信腾讯混元模型将进一步赋能腾讯生态系统中的更多应用。

 

以上就是我今天演讲的全部内容,谢谢大家。

踩(0)

最新文章

相关文章

大家都在看