据 [1M AI News](https://t.me/OneMillion_AI) 报道,苹果公司著名的机器学习研究科学家 Zhai Shuangfei 最新发表了一篇具有突破性的论文,提出了一种创新的注意力机制——“排他自注意力(XSA)”。这一新颖方法在标准 Transformer 架构基础上进行了改进,简单而高效。
传统的 Transformer 在计算每个 token 的注意力值时,会将自身的信息也纳入考虑,形成“自我关注”。而XSA则引入了一项关键调整——明确排除自身在注意力计算中的贡献,只从上下文中汲取信息。这一改变源于直觉:每个 token 已经“知道自己是谁”,其价值在于理解周围的环境。
实验数据显示,在参数规模最高达27亿的模型中,XSA始终优于传统的自注意力机制,特别是在处理更长序列时,这一优势更为明显。值得一提的是,Zhai此前也是Attention Free Transformer(AFT)的核心开发者,近年来一直在探索替代注意力机制的种种可能性,展现了其在该领域的深厚造诣。
这项研究不仅为Transformer模型提供了新的方向,也可能对未来的自然语言处理和深度学习架构产生深远影响。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/162038/


