Transformer注意力机制重大升级：IHA显著提升推理与长上下文任务性能

2026.04.13 20:35

Paul Liang在X平台宣布Transformer注意力机制获重大升级，推出Interleaved Head Attention（IHA）。该机制让注意力头间共享信息，兼容高效实现，在推理及长上下文任务上表现优异，理论上泛化多头注意力。

2026年4月11日，Paul Liang在X平台发文宣布，Transformer的注意力机制迎来重大升级——Interleaved Head Attention（IHA）正式推出。与传统多头注意力不同，IHA不再维持各注意力头的独立性，而是通过头间信息共享来增强模型的推理能力与组合性。

具体来看，IHA通过学习原始注意力头的线性组合生成伪查询、伪键与伪值，让头间交互在注意力计算前就已发生，同时还能兼容FlashAttention等高效实现方案。实验数据显示，IHA在推理任务和长上下文场景中均有明显提升：GSM8K（Maj@16）得分提高5.8%，MATH-500（Maj@16）提升2.8%；而在RULER任务里，4k上下文下性能提升27%，> 8k时达32%，16k上下文更是实现了112%的增长。从理论层面分析，IHA对传统多头注意力具有严格的泛化性。

同一天，Chanakya Ekbote在X平台的帖子中提到，Noam Shazeer团队此前提出的Talking-Heads Attention给了他们启发——既然头间通信如此关键，那么头与头之间最合理的通信方式应该是什么？尤其是从...

作品声明：内容由AI生成