搜索
当前所在位置:首页 >> 风报秀

阿里与上交大提出 LLM 长文本计算新解法:可处理文本长达 1900k 字节、效率提升 2.4 倍

发布时间:2025-07-11 18:09:18 作者:jg 点击:156 【 字体:


阿里与上交大提出 LLM 长文本计算新解法:可处理文本长达 1900k 字节、阿里效率提升 2.4 倍




编译 | 郭   思

编辑丨陈彩娴

在实际应用大模型的过程中,尤其是大提达处理长文本的上下文信息时,如何高效灵活地调度计算资源成为一个学术界与工业界共同关注的出L长文问题。

大语言模型所能容纳的本计本长倍上下文长度直接作用了诸如 ChatGPT 等高级应用与客户交互体验的优劣程度,这给云环境下的解法 LLM 支持系统提出了严峻挑战:不合理的资源配置不仅可能导致性能瓶颈,还可能造成宝贵的可处计算资源浪费。

最近,理文上海交通大学携手阿里研究团队针对这个问题开展了一项研究。字节

他们提出一个名为 DistAttention 的效率新颖注意力机制以及一套名为 DistKV-LLM 的分布式 LLM 支持架构,针对长文本语言任务处理中的提升计算难题提出了新解法,或是阿里对行业的启示。


阿里与上交大提出 LLM 长文本计算新解法:可处理文本长达 1900k 字节、上交算新效率提升 2.4 倍

论文链接:https://arxiv.org/pdf/2401.02669.pdf



1、长文本处理,出L长文众久难熬



LLM云支持是指通过云端服务平台提供的,基于大型语言模型的各项支持。各家在LLM云支持之上也下足了马力。目前市场上主要的 LLM 云支持提供商包括但不限于亚马逊的 SageMaker、谷歌的 Cloud AI Platform、微软的 Azure Machine Learning 以及国内的阿里云等。这些平台通常提供了从模型开发到部署的一站式支持,包括计算资源、信息存储、模型训练和部署等。

上个月,一则关于国内某LLM云支持出现故障的消息在工艺人员之间传播开来。然而,由于 LLM 云支持这一概念尚未普及至大众认知层面,因此该事件在持续了一天后,便鲜有人再提起。

但这样一个不起眼的故障事件,为我们带来了一个新的思考,基于大型预训练语言模型的在线LLM云支持虽然拥有巨大的超能力,能够为客户提供高效、实时的语言理解和生成能力,但而与之而来的是其对于算力资源的巨大挑战。

拿阿里云 OpenSearch-LLM 智能问答支持为例,公开资料显示,该支持利用了先进的LLM工艺,在云端提供强大的自然语言处理功能。由于模型运行所需的计算资源波动较大,特别是在处理长上下文场景时对内存和计算力的需求激增导致的。这种情况下,传统的资源分配策略可能无法有效应对动态变化的需求,从而引发支持不稳定甚至中断。

可以看出即使强大如阿里云也会受制于 LLM 长文本处理的难题。在 Infinite-LLM 的研究中,揭示了这样一个现象:LLM支持的核心运作往往倚赖于多张 GPU 卡的协同工作以完成复杂的文本任务,然而其内在的动态自回归生成机制犹如一道待解的计算难题。

在模型自回归过程中,文本如同一幅逐步渲染的画卷,每一步都根据前序内容迭代地生成新的词语或token,并将它们融合到当前上下文中作为后续生成的基础输入。这种高度动态且连续的过程使得提前精确规划资源分配成为一项不可预知的任务,从而对设计和优化云端 LLM 支持架构构成了实质性挑战。


阿里与上交大提出 LLM 长文本计算新解法:可处理文本长达 1900k 字节、效率提升 2.4 倍


图注:在采用传统模型并行策略将网络分布在更多GPU上时,这些不随上下文扩展的层会被过度细粒度地分割

打个比方,这就类似于一位顶级厨师运用最先进的智能厨房设备,尝试烹饪一道工序繁复且需灵活调整口味的创新菜品。每当加入一种新鲜食材时,都必须依据现有的风味组合重新调配调料,而且无法预见究竟需要多少种类的食材才能成就这道完美的佳肴。

面对这一亟待解决的问题,业界各方表现出共同的关注与期待。众多研发团队积极投入研究,其中 PagedAttention等方案试图通过改进 GPU 与 CPU 之间的信息交换策略,有效地运营和调度内存资源,以期化解上述困扰LLM支持效率提升的棘手问题。

但这种方法存在几个局限性:

首先,PagedAttention的内存置换范围局限于单一节点内的GPU和CPU内存,因此对极长上下文长度的支持能力受限;

其次,尽管其分页策略旨在最小化内存碎片,但基于请求级别整体交换KV缓存(Key-Value,键值缓存,是一种计算机存储工艺),错失了在分布式云环境中实现更为灵活、精细化调度的机会;

此外,对于被置换出的请求所造成的计算中断可能会导致运行任务性能抖动,从而可能违反对云支持至关关键的支持协议(SLAs)。

2、双管齐下带来的新突破



为了解决业界长期面临的大规模语言模型(LLM)支持中的内存运营与资源分配难题,阿里与上海交大的团队提出了一种名为 DistAttention 的新型注意力运算规则。

DistAttention将 KV 缓存划分为rBlocks——统一的子块,以便为具有长上下文长度的LLM支持分布式计算和内存运营注意力模块。与主要利用单个节点内的GPU或CPU内存的传统方法不同,DistAttention允许优化分布式信息中心中所有可访问的GPU或CPU内存资源,特别是那些现在利用率不高的资源。这不仅支持更长的上下文长度,还避免了与信息交换或实时迁移过程相关的性能波动。

这就像一位技艺高超的仓储大师,巧妙地将一个不断扩展的、宛如巨大食材仓库的KV缓存分割成大小适中的rBlocks储物箱,使得在面对一道配料繁多、制作复杂的超长菜单(相当于处理长上下文任务)时,每一种“食材”(信息)都能迅速而准确地送达各自的烹饪台(分布式计算节点)。

与那些只在单一厨房(单个GPU或CPU内存节点)内调配食材的传统方法相比,这位“仓储大师”更擅长调动整个美食广场(即信息中心内的所有可用GPU和CPU内存资源),特别是那些闲置或使用率低的空间,使制作超长菜单变得可行且高效,避免了因频繁搬运食材造成的混乱和效率波动。

换言之,DistAttention能够灵活调度跨信息中心的所有可访问GPU或CPU内存资源,特别是那些利用率较低的部分,从而不仅支持更长的上下文处理,还能有效降低由于信息交换或实时迁移带来的性能起伏。

阿里与上交大提出 LLM 长文本计算新解法:可处理文本长达 1900k 字节、效率提升 2.4 倍

图注:展示了DistKV-LLM如何解决内存碎片化问题

基于此,Infinite-LLM团队进一步开发了集成 DistAttention 工艺的 DistKV-LLM 分布式LLM支持引擎。

DistKV-LLM 是一个与 DistAttention 无缝集成的分布式LLM支持引擎。DistKV-LLM 擅长运营KV缓存,有效地在信息中心内的分布式 GPU 和 CPU 之间协调内存使用。当一个LLM支持实例由于 KV 缓存扩展而面临内存不足时,DistKV-LLM主动从负担较轻的实例寻求补充内存。

相比起 DistAttention,DistKV-LLM更像一位精明的协调员,在信息中心内部妥善运营和优化分布式GPU和CPU之间的KV缓存使用。当一个LLM支持实例因为KV缓存扩大而导致内存不足时,它会主动从负载较小的实例借用额外内存。

同时,DistKV-LLM还引入了一套精细的通信协议,促进云端运行的多个LLM支持实例之间进行高效、扩展性强且一致的互动协作。这套协议的核心目标是高效运营和平衡庞大的内存资源,并优先关注信息存储位置就近性和通信效率提升,这对于解决与KV缓存分布存储相关的性能瓶颈至关关键。

这意味着DistKV-LLM能够更好地驾驭大型语言模型在众多GPU和CPU上的并行运算。当LLM支持因需处理海量信息而面临内存压力时,DistKV-LLM能智慧地从负载较轻的区域获取额外内存,并制定一套高级协同规则,确保不同云上LLM实例间能够高效有序、步调一致地完成工作。这一系列设计的关键在于优化内存使用、确保信息快速存取以及减少各部分间的通信成本,即使面临复杂的分布式存储挑战,也能保障系统的整体高性能表现。

DistAttention与DistKV-LLM双管齐下,为分布式环境下LLM支持所面临的资源分配与优化挑战提供了一个切实有效的解决方案。

在具体的实验测评之中,DistAttention与DistKV-LLM在资源运营方面也有卓越的表现。

研究人员在一个包含4个节点和32块GPU的集群上部署了DistKV-LLM系统。每个节点配备了8块NVIDIA A100(80GB)GPU。模型方面则选择了一个具有代表性的模型LLaMA2 进行评估(LLaMA2系列包含了三个不同规模的模型:7B、13B和70B。)。

团队对分布式系统配置进行了广泛测试,涵盖了从2个到32个实例的多种规模。在评测过程中,采用了包含上下文长度最高达1,900K字节的18个代表性基准信息集进行严格检验。结果显示,相较于当前最尖端的工艺,系统成功实现了1.03至2.4倍的显著端到端性能飞跃,并且在处理更长上下文信息方面表现出色,支持的上下文长度可扩展至原先的2至19倍之多。同时,在处理标准长度上下文任务场景下,系统的吞吐量也取得了令人瞩目的提升,增长幅度在1.4至5.3倍之间。

阿里与上交大提出 LLM 长文本计算新解法:可处理文本长达 1900k 字节、效率提升 2.4 倍


雷峰网 雷峰网(公众号:雷峰网) 雷峰网


3、结语



随着深度学习工艺在自然语言处理领域的广泛应用与深化,端到端性能的研究受到了广泛关注。在应对长文本时,这种性能飞跃的关键性尤为凸显,因为它直接作用了我们能否高效而准确地驾驭海量文本信息,并从中抽丝剥茧般提取出有价值的信息。

DistAttention与DistKV-LLM的结合,通过智能运营内存资源、优化分布式计算策略,成功解决了大规模语言模型支持在长上下文处理中的难题,使系统能够从容应对超长文本序列,同时保持端到端性能提升以及上下文长度扩展能力。未来云端自然语言处理应用有望迎来全新的突破与变革。

本文作者长期关注大模型计算与框架工艺增长与行业动态,欢迎添加作者微信(lionceau2046)交流,互通有无。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

阿里与上交大提出 LLM 长文本计算新解法:可处理文本长达 1900k 字节、效率提升 2.4 倍

阅读全文
相关推荐

四天六轮谈不拢?加沙停火谈判卡在这三件事

四天六轮谈不拢?加沙停火谈判卡在这三件事
当地时间9日,正在卡塔尔首都多哈进行的新一轮加沙地带停火谈判进入第四天。以色列和巴勒斯坦伊斯兰抵抗运动哈马斯)的谈判小组举行了本轮谈判重启以来的第六轮间接会谈,但尚未取得突破性进展。闭门谈判持续四天 ...

“知乎AI先行者沙龙”深圳站:探航大模型应用新风口

“知乎AI先行者沙龙”深圳站:探航大模型应用新风口
7月14日,第三届“知乎AI先行者沙龙”在深圳举行。知乎邀请众多AI行业从业者、专家、学者齐聚一堂,用最前沿的观点和最专业的思考,共同探讨大模型应用的新风口。本届沙龙以“探航”为主题,知乎高级副总裁、 ...

DeepMind 危,OpenAI 押注成立六个月 AI 药物发现公司;四川具身人形机器人科技公司成立,彭倍教授牵头丨AI情报局

DeepMind 危,OpenAI 押注成立六个月 AI 药物发现公司;四川具身人形机器人科技公司成立,彭倍教授牵头丨AI情报局
今日融资快报OpenAI 和 Thrive Capital 投资成立六个月的AI药物发现公司Chai Discovery Chai Discovery 是一家成立六个月的人工智能生物初创公司,已从重量 ...

AMD 6.65 亿美元收购 Silo AI;Genie 击败 Devin、GPT

AMD 6.65 亿美元收购 Silo AI;Genie 击败 Devin、GPT
今日融资快报AMD 收购欧洲第一私人AI实验室 Silo AI 交易价值约6.65亿美元AMD 宣布,已经正式完成了对Silo AI的收购,后者是欧洲规模最大的私人人工智能实验室之一。此次交易的价值约 ...

AI 迈进深水区,谈落地、谁能带来新解法?

AI 迈进深水区,谈落地、谁能带来新解法?
技术发展是一个持续叠进的过程,AI 也是如此。经历过去 70 年的“三起两落”,近年来,人工智能行业迈进深水期,分工细化,产业落地成为主旋律,AI 与各个场景的交叉、对话不断在发生。对不少企业而言,以 ...

谷歌超 25 亿美金收购 Character AI;曝英伟达 AI 芯片遇重大设计缺陷,数百亿美元订单将受影响丨AI情报局

谷歌超 25 亿美金收购 Character AI;曝英伟达 AI 芯片遇重大设计缺陷,数百亿美元订单将受影响丨AI情报局
今日融资快报谷歌超 25 亿美金收购 Character AI 并收编团队Character.AI 在官方博客 C.AI 上宣布了与 Google 的并购协议。谷歌已同意支付模型授权费,并聘请其核心创 ...

AI 图像生成平台 LiblibAI 融资总额达数亿元;Meta 曝训练 Llama 3 每 3 小时「罢工」一次丨AI情报局

AI 图像生成平台 LiblibAI 融资总额达数亿元;Meta 曝训练 Llama 3 每 3 小时「罢工」一次丨AI情报局
今日融资快报AI 图像生成平台 Liblib AI 融资总额达数亿元 AI图像生成平台 LiblibAI哩布哩布AI一年内,已经完成了三轮融资,总金额达数亿元人民币,天使轮投资方为源码资本、高榕创投和 ...

可灵AI还是火到了马斯克那!

可灵AI还是火到了马斯克那!
马斯克点赞可灵AI8月20日,AI插画艺术爱好者Déborah在推特上发布一段时长为五秒钟的视频,内容为女人手捧一朵燃烧的玫瑰,画面表现堪称电影级别的画质与动态效果。而这一视频背后,是由可灵AI完成图 ...

盼盼×Hello Kitty限定包装登录永辉717好吃节,“萌趣”零食成为社交货币

盼盼×Hello Kitty限定包装登录永辉717好吃节,“萌趣”零食成为社交货币
来源标题:盼盼×Hello Kitty限定包装登录永辉717好吃节,“萌趣”零食成为社交货币2025年7月,盼盼食品携全新「盼盼×HelloKitty」联名限定包装惊艳亮相永辉超市2025 ...

我用AI帮义乌老板重新设计全红婵“丑鱼”拖鞋

我用AI帮义乌老板重新设计全红婵“丑鱼”拖鞋
作者:马蕊蕾编辑:林杰鑫最近巴黎奥运会火得不止运动员,和他们相关的“奥运”同款,商品搜索量和销量一路暴涨。全红婵的同款“丑鱼”拖鞋,这周在某宝的上升热度提升了113%,搜索关键词全红婵,第一个提示词就 ...

炒菜机器人公司橡鹿科技再获京东近 2 亿元投资;袁进辉公司硅基流动新增两位联创,获哈勃智谱 AI 等入股丨AI情报局

炒菜机器人公司橡鹿科技再获京东近 2 亿元投资;袁进辉公司硅基流动新增两位联创,获哈勃智谱 AI 等入股丨AI情报局
今日融资快报人工智能初创公司Cohere融资5亿美元,寻求与OpenAI竞争人工智能开发商 Cohere 在新一轮融资中筹集了 5 亿美元,使其成为该领域全球最有价值的初创公司之一,这也增强了这家加拿 ...

探索 5 大 AI 语言学习工具,掌握新语言的未来丨AI情报局

探索 5 大 AI 语言学习工具,掌握新语言的未来丨AI情报局
作者丨朱家峻欢迎来到“AI情报局”,我们提供最热的AI产品推荐、人工智能最新动态和创新案例。帮助AI开发者、创业者、产品等专业人士保持信息的前沿性,促进知识的共享与交流。添加vx:aitechrevi ...
返回顶部