上次,我們已經逐步解析了Transformer的內部工作原理。Transformer是現代AI中很多工具的核心技術之一,也是大語言模型的重要組成部分。這項技術首次出現是在2017年的一篇著名論文《Attention is All You Need》中。今天,我們將深入瞭解Transformer中的核心機制--注意力機制,並通過可視化的方式觀察它是如何處理資料的。
回顧Transformer的基本背景
我們研究的這個模型的目標是接受一段文字輸入,並預測下一個詞彙。
輸入的文字會被分解成稱為“token”的小片段,這些token通常是單詞或單詞的組成部分。為了便於理解,我們暫且簡化成假設token就是單詞,Transformer的第一步是將每個token與一個高維向量(即嵌入向量,embedding)關聯起來。