nikkie-ftnextの日記

イベントレポートや読書メモを発信

イベントレポート | 「Attentionさえあればいい。」に参加、ようやく論文を完全理解できるかも #StudyCo

はじめに

ともーだちーほーしーーーーー!!!!🎶 nikkieです1

11/3に論文「Attention is All You Need」についての勉強会(StudyCoさん開催)に参加しました。
なかなか完全に理解に至れていないこの論文ですが、N度目かの正直で「今回は完全理解できそう2」という手応えが得られました。

目次

勉強会の概要

Attentionさえあればいい。~NovelAIなどの今どきの自然言語AIの基礎技術を解説~ - connpass

Transformerという言葉を知っていますか? Transformerとは、2017年にGoogleが発表した論文に登場する深層学習モデルの名前で、実は「AIのべりすと」や「NovelAI」には、このTransformerから派生したモデルが使用されています。 その論文の名前は「Attention is All You Need」、近年の自然言語処理の発展はこの論文から始まりました。(略)

本発表では、Attentionのしくみについて数式レベルで解説します。また、AttentionがTransformerの中でどう使われているのか、Transformerからどのようにモデルが派生したかについても解説します。

主な対象者の

なんとなくTransformerなど用語は聞いたことあるけどしくみはよく分かっていない方

はい、これ私3です!!🙋‍♂️

発表資料

勉強会開始時点で公開資料を共有いただいており(なんとありがたい!)、手元で行きつ戻りつしながら聴講していました。

アーカイブ

このレポートで勉強会の存在を知ったという方、YouTubeアーカイブが公開されていますよ〜

勉強会での気付き

「ようやく完全理解できそう」という手応えに導いたのは

  • 勉強会を通して元論文「Attention is All You Need」の図(Figure 1。Transformerの構造を示す)が読めた感じがあった
  • Transformerの構造は元論文のSection 3にあることが分かった(ここだけ読めばいい)
  • 「Attention is All You Need」はAttention(注意機構)初出の論文ではなくて、Transformerについての論文
    • Attention自体はこの論文の前からあった
    • この論文で拡張して(Self-Attention)、Transformerを提案した

といった気付きです。

合わせて参照したコンテンツ

元論文「Attention is All You Need」

勉強会で解説されたのは

で、Section 3にあたります。
勉強会を通じて範囲が絞られた(インデックスが作られた)ので「勉強会の後にここだけ読んでみよう」と思いました。

紹介されたサーベイ論文 A Survey of Transformers (2021)

Fig. 3の樹形図は衝撃でした。こんなにも…!

NLP2022 チュートリアル「ゼロから始める転移学習」

2022年3月の言語処理学会チュートリアルはめちゃめちゃ得るものが大きかったのですが、今回の勉強会の後にパート3(とくにスライド30〜63のあたり)を見ると

  • 「Attention is All You Need」ではAttentionを拡張(スライド37)

に気付いて、一人でめちゃめちゃテンションが上がっていました4
この論文で提案されたTransformerがBERTをはじめとするモデルにつながるわけですからね!

『ゼロから作るDeep Learning ❷』

「Attention is All You Need」以前にAttentionがあり、この論文ではTransformerを提案ということを理解すると、『ゼロから作るDeep Learning ❷』8章も腑に落ちます。
「8章で解説されているAttention、「Attention is All You Need」のAttentionとは違うように感じるな。どこかで掘り下げたい」という気持ちが元々ありました。
8章「Attention」のうち、8.5「Attentionの応用」の中で「Attention is All You Need」も簡潔に紹介されています!(8.5.2)
この8章も勉強会を通じてインデックスが作られた感覚があります。

終わりに

勉強会「Attentionさえあればいい。」、「Attention is All You Need」という論文を完全に理解できそうな光明が見えた機会でした。

この論文で提案されたTransformerが、サーベイ論文にまとめられたBERTやRoBERTaなどなど、「言語分かってるな」と思わせる後続のモデルたちにつながります。
Transformer系のモデルが席巻している現状は、科学史で言う「パラダイムシフト」を思い起こさせますね。
Transformerというアーキテクチャパラダイムシフトに該当するのではないでしょうか。
そしてそのパラダイムシフトは過去のものではなく、ちょうどいま立ち会っているというのは、かなりときめきを感じます!

発表者の早野さん、運営のStudyCoの方々、参加者の皆さま、ありがとうございました。


  1. 今回の挨拶は『アイの歌声を聴かせて』の「ユー・ニード・ア・フレンド」の一節から(2:05)。配信だけでなく、ちょうどいまは劇場でも見られます! 機械にはAttentionが、人間には友達が、必要なのです!

  2. 「完全に理解した」に至るまでがなかなか遠い道のりです。なお、完全に理解のあとは「何もわからない」→「チョットデキル」と進むやつ(ダニング=グルーガー効果)です。「Attention is All You Need」に関して"馬鹿の山"の手前なう

  3. transformersといったライブラリが素晴らしく、ブラックボックスでも全然利用できるんですよね🤗。どこかで中身を知りに行きたい気持ち(低レイヤーを知りたい衝動とでも言うべき気持ち)が頭をもたげ始めていました。

  4. 週末論文読むんだ!とその夜はあまり眠れませんでした