イベントレポート | 「Attentionさえあればいい。」に参加、ようやく論文を完全理解できるかも #StudyCo

はじめに

11/3に論文「Attention is All You Need」についての勉強会（StudyCoさん開催）に参加しました。
なかなか完全に理解に至れていないこの論文ですが、N度目かの正直で「今回は完全理解できそう²」という手応えが得られました。

勉強会の概要

Attentionさえあればいい。～NovelAIなどの今どきの自然言語AIの基礎技術を解説～ - connpass

Transformerという言葉を知っていますか？ Transformerとは、2017年にGoogleが発表した論文に登場する深層学習モデルの名前で、実は「AIのべりすと」や「NovelAI」には、このTransformerから派生したモデルが使用されています。その論文の名前は「Attention is All You Need」、近年の自然言語処理の発展はこの論文から始まりました。（略）

本発表では、Attentionのしくみについて数式レベルで解説します。また、AttentionがTransformerの中でどう使われているのか、Transformerからどのようにモデルが派生したかについても解説します。

主な対象者の

なんとなくTransformerなど用語は聞いたことあるけどしくみはよく分かっていない方

はい、これ私³です！！🙋‍♂️

発表資料

勉強会開始時点で公開資料を共有いただいており（なんとありがたい！）、手元で行きつ戻りつしながら聴講していました。

アーカイブ

このレポートで勉強会の存在を知ったという方、YouTubeにアーカイブが公開されていますよ〜

勉強会での気付き

#StudyCo 「Attentionさえあればいい。」参加してます。
Attention Is All You Need (2017)を手元で開きながら聞いてました。

✍️Self-Attention（Q, K, Vに同じInput）がMulti-Head分ある
👉"多角的に"見た自分との関連度

Attention機構、完全に理解への光明がついに見えた感じです
— nikkie にっきー 🎤10/1 XP祭り 10/14-15 PyCon JP (@ftnext) 2022年11月3日

「ようやく完全理解できそう」という手応えに導いたのは

勉強会を通して元論文「Attention is All You Need」の図（Figure 1。Transformerの構造を示す）が読めた感じがあった
Transformerの構造は元論文のSection 3にあることが分かった（ここだけ読めばいい）
「Attention is All You Need」はAttention（注意機構）初出の論文ではなくて、Transformerについての論文
- Attention自体はこの論文の前からあった
- この論文で拡張して（Self-Attention）、Transformerを提案した

といった気付きです。

合わせて参照したコンテンツ

元論文「Attention is All You Need」

勉強会で解説されたのは

Figure 1：Transformerのアーキテクチャ
Figure 2：Multi-Head Attention

で、Section 3にあたります。
勉強会を通じて範囲が絞られた（インデックスが作られた）ので「勉強会の後にここだけ読んでみよう」と思いました。

紹介されたサーベイ論文 A Survey of Transformers (2021)

Fig. 3の樹形図は衝撃でした。こんなにも…！

NLP2022 チュートリアル「ゼロから始める転移学習」

ゼロから始める転移学習 from Yahoo!デベロッパーネットワーク

2022年3月の言語処理学会チュートリアルはめちゃめちゃ得るものが大きかったのですが、今回の勉強会の後にパート3（とくにスライド30〜63のあたり）を見ると

「Attention is All You Need」ではAttentionを拡張（スライド37）

に気付いて、一人でめちゃめちゃテンションが上がっていました⁴。
この論文で提案されたTransformerがBERTをはじめとするモデルにつながるわけですからね！

『ゼロから作るDeep Learning ❷』

「Attention is All You Need」以前にAttentionがあり、この論文ではTransformerを提案ということを理解すると、『ゼロから作るDeep Learning ❷』8章も腑に落ちます。
「8章で解説されているAttention、「Attention is All You Need」のAttentionとは違うように感じるな。どこかで掘り下げたい」という気持ちが元々ありました。
8章「Attention」のうち、8.5「Attentionの応用」の中で「Attention is All You Need」も簡潔に紹介されています！（8.5.2）
この8章も勉強会を通じてインデックスが作られた感覚があります。

終わりに

勉強会「Attentionさえあればいい。」、「Attention is All You Need」という論文を完全に理解できそうな光明が見えた機会でした。

この論文で提案されたTransformerが、サーベイ論文にまとめられたBERTやRoBERTaなどなど、「言語分かってるな」と思わせる後続のモデルたちにつながります。
Transformer系のモデルが席巻している現状は、科学史で言う「パラダイムシフト」を思い起こさせますね。
Transformerというアーキテクチャはパラダイムシフトに該当するのではないでしょうか。
そしてそのパラダイムシフトは過去のものではなく、ちょうどいま立ち会っているというのは、かなりときめきを感じます！

発表者の早野さん、運営のStudyCoの方々、参加者の皆さま、ありがとうございました。

今回の挨拶は『アイの歌声を聴かせて』の「ユー・ニード・ア・フレンド」の一節から（2:05）。配信だけでなく、ちょうどいまは劇場でも見られます！機械にはAttentionが、人間には友達が、必要なのです！↩
「完全に理解した」に至るまでがなかなか遠い道のりです。なお、完全に理解のあとは「何もわからない」→「チョットデキル」と進むやつ（ダニング＝グルーガー効果）です。「Attention is All You Need」に関して"馬鹿の山"の手前なう↩
transformersといったライブラリが素晴らしく、ブラックボックスでも全然利用できるんですよね🤗。どこかで中身を知りに行きたい気持ち（低レイヤーを知りたい衝動とでも言うべき気持ち）が頭をもたげ始めていました。↩
週末論文読むんだ！とその夜はあまり眠れませんでした↩

nikkie-ftnextの日記

イベントレポートや読書メモを発信