Transformer注意力机制重大升级:IHA显著提升推理与长上下文任务性能

2026.04.13 20:35
Paul Liang在X平台宣布Transformer注意力机制获重大升级,推出Interleaved Head Attention(IHA)。该机制让注意力头间共享信息,兼容高效实现,在推理及长上下文任务上表现优异,理论上泛化多头注意力。

2026年4月11日,Paul Liang在X平台发文宣布,Transformer的注意力机制迎来重大升级——Interleaved Head Attention(IHA)正式推出。与传统多头注意力不同,IHA不再维持各注意力头的独立性,而是通过头间信息共享来增强模型的推理能力与组合性。

具体来看,IHA通过学习原始注意力头的线性组合生成伪查询、伪键与伪值,让头间交互在注意力计算前就已发生,同时还能兼容FlashAttention等高效实现方案。实验数据显示,IHA在推理任务和长上下文场景中均有明显提升:GSM8K(Maj@16)得分提高5.8%,MATH-500(Maj@16)提升2.8%;而在RULER任务里,4k上下文下性能提升27%,> 8k时达32%,16k上下文更是实现了112%的增长。从理论层面分析,IHA对传统多头注意力具有严格的泛化性。

同一天,Chanakya Ekbote在X平台的帖子中提到,Noam Shazeer团队此前提出的Talking-Heads Attention给了他们启发——既然头间通信如此关键,那么头与头之间最合理的通信方式应该是什么?尤其是从...

作品声明:内容由AI生成

快报

更多

2026-04-14 23:03

国内商品期货夜盘收盘,燃油跌2.21%

2026-04-14 23:02

云南龙富公路口岸获批对外开放

2026-04-14 22:57

以防长称从伊朗移除浓缩铀是结束冲突的“先决条件”

2026-04-14 22:55

Lululemon中国回应:国内所有在售产品均不含全氟和多氟烷基物质

2026-04-14 22:54

白宫经济顾问哈塞特:油价上涨将会逆转,美联储还有降息空间

2026-04-14 22:44

两艘从伊朗出发的船只通过霍尔木兹海峡

2026-04-14 22:35

加密货币普遍大涨,比特币涨超6%升破7.6万美元

2026-04-14 22:32

中科星图:控股子公司拟不低于1110.3万元转让星图瑞云30%股权

2026-04-14 22:31

伯特利:丝杠和电机项目预计今年下半年实现量产,投产后首先配套WCBS和EMB产品

2026-04-14 22:30

中概指数涨幅扩大至2%

2026-04-14 22:26

美股全球星涨近10%创历史新高

2026-04-14 22:25

富国银行跌幅扩大至7.1%,创下年内最大单日跌幅

2026-04-14 22:22

美国联邦通信委员会主席:SpaceX公司已就太空数据中心提出请求

2026-04-14 22:19

伊朗优先考虑在伊斯兰堡举行新一轮伊美会谈

2026-04-14 22:19

美股航空股集体走高,美国航空、捷蓝航空涨约9%

2026-04-14 22:18

国内贵金属、有色金属期货集体走高

2026-04-14 22:17

伊朗内政部长指示边境省份“消除海上封锁威胁”

2026-04-14 22:17

以外长称以色列寻求与黎巴嫩“关系正常化”但要解决真主党问题

2026-04-14 22:15

伊朗称战争赔偿是伊美谈判议题,伊朗损失达2700亿美元

2026-04-14 22:13

MSCI亚太指数上涨2%

Baidu
map