2026年4月11日,Paul Liang在X平台发文宣布,Transformer的注意力机制迎来重大升级——Interleaved Head Attention(IHA)正式推出。与传统多头注意力不同,IHA不再维持各注意力头的独立性,而是通过头间信息共享来增强模型的推理能力与组合性。
具体来看,IHA通过学习原始注意力头的线性组合生成伪查询、伪键与伪值,让头间交互在注意力计算前就已发生,同时还能兼容FlashAttention等高效实现方案。实验数据显示,IHA在推理任务和长上下文场景中均有明显提升:GSM8K(Maj@16)得分提高5.8%,MATH-500(Maj@16)提升2.8%;而在RULER任务里,4k上下文下性能提升27%,> 8k时达32%,16k上下文更是实现了112%的增长。从理论层面分析,IHA对传统多头注意力具有严格的泛化性。
同一天,Chanakya Ekbote在X平台的帖子中提到,Noam Shazeer团队此前提出的Talking-Heads Attention给了他们启发——既然头间通信如此关键,那么头与头之间最合理的通信方式应该是什么?尤其是从...






快报