イベントレポート | Pythonで自然言語処理ハンズオン #はんなりPython

はじめに

すごい、すごいよこれ。 nikkieです。

#はんなりPython 自然言語処理ハンズオン、ありがとうございました！
transformersやばいですね。spaCyを彷彿とさせる簡単なインターフェース！
モデルの指定を変えることしかしてないのに、日英の感情分析、日英のマスクした単語埋めなどいろんなタスクが解けちゃいました🙌https://t.co/t6oCGEYwzC
— nikkie にっきーシオンv0.0.1開発中⚒ (@ftnext) 2022年2月25日

2/25(金)に、はんなりPythonさん開催の自然言語処理ハンズオンに参加しました。
初めてtransformersを触ったのですが、「学習済みのモデルって、いまやこんなに簡単に使えるのか！」と衝撃を受けました。
レポートを綴ります。

イベントの概要

Pythonで自然言語処理ハンズオン - connpass

BERTを中心とした言語モデルを使いこなそう！というコンセプトで開催します。今回は、分散表現(Word2vec)からBERTによる感情分析までを行います。

自然言語処理の入門と位置づけており、入門者を対象とします。中級者以上の方には、手ごたえが感じられないかもしれないのでご注意ください。

実務で自然言語処理をやっているえぬえるぴ〜や（＝NLPer）ですが、「BERTを使ったハンズオンって珍しい！」と興味を惹かれ、参加しました。

ハンズオンの資料

Python nlp handson_20220225_v5 from 博三太田

※SlideShareからダウンロードすると、リンク先が参照できます

2部構成のハンズオン

理論編：自然言語処理の関連学問分野を知る本格的な講義！
実践編：入門ハンズオン

今回の時間配分としては、理論：実践＝3:1くらいでした。
理論は私もキャッチアップ中¹ですが、今回の私の興味は動くコードにあります。
そこで、入門ハンズオンに絞ってレポートします。

動作環境

Colabで全然やっていいと思うのですが、今回は訓練がなかったので、ローカルに環境構築して動かしました。
モデルが小さめというのもあり、推論はCPUでも動きました。

$ python3.9 -m venv venv --upgrade-deps
$ . venv/bin/activate
(venv) $ pip install transformers[ja] torch

macOS（M1ではなくIntel）
Python 3.9.4
transformers 4.16.2
torch 1.10.2

入門ハンズオン

「BERTを使ってみる」ハンズオンです。
transformersを使って、日英それぞれで以下のタスクを解きます。

感情分析（"sentiment-analysis"）
マスクした語を埋める（"fill-mask"）

タスクの解き方は共通です。
transformers.Pipelineを初期化し、対象の文を渡すだけ！²
Pipeline初期化時に、モデルとトークナイザも指定します。

>>> from transformers import pipeline
>>> nlp = pipeline("sentiment-analysis", model="daigo/bert-base-japanese-sentiment", tokenizer="daigo/bert-base-japanese-sentiment")
>>> print(nlp("この商品を買ってよかった。"))
[{'label': 'ポジティブ', 'score': 0.9898485541343689}]

ハンズオンで使ったモデル

英語文の感情分析

"sentiment-analysis"タスクでmodel引数、tokenizer引数を指定しない場合、デフォルトで使われるそうです（実行時に出力されたメッセージより）。

日本語文の感情分析

英文中のマスクした語埋め

"fill-mask"タスクのデフォルトはこちら。
tokenizer.mask_tokenが"<mask>"なので、"I eat <mask> everyday"の"<mask>"部分を埋めるように処理するんですね。

日本語文中のマスクした語埋め

今回指定したトークナイザではtokenizer.mask_tokenが"[MASK]"でした。

終わりに

transformers、モデルの指定を変えるだけで自然言語処理のいろんなタスクが解けるんですね！
各タスク向けのモデルは有志が公開していて、手元の問題に合わせてモデルをダウンロードして使うだけという状況³になっているとは！

先日、音声認識や音声合成のモデルを試したとき⁴にも感じましたが、必要なライブラリを選んで使うように、必要なモデルを探してダウンロードして使う時代になってるんですね。
そして中身をきちんと理解していなくても（＝ブラックボックスでも）、それなりの結果が利用できる！

これってすごくないですか？

今回のハンズオンは3/18(金)に続くそうです。
次回も楽しみにしています。
登壇者のusagisanさん、運営・参加者の皆さま、ありがとうございました！

補足：合わせて読みたい

読んできた中から、このハンズオンで初めて自然言語処理に触れた方向けに、関連書籍を挙げておきます。
ハンズオン資料の参考文献に当たるのもありだと思います。

復習や予習によさそうなのが『BERTによる自然言語処理入門』⁵。

BERTによる自然言語処理入門: Transformersを使った実践プログラミング

Amazon

私視点でBERTを使いこなしているように見える方から教えていただいたのですが、サンプルコード豊富で（BERT以後の）入門書として推していきたい一冊です（写経の時間を作りたい・・）。
またBERTに絞って、理論面の解説もあります（サブワードの解説とか分かりやすかった！）

サンプルコードはこちらで公開されています：https://github.com/stockmarkteam/bert-book

もう1冊。
今回のハンズオン、理論面が本格的でしたが、私が一歩目として読んだのはこちら（参考文献でも挙がっています）。

自然言語処理の基本と技術

作者:グラム・ニュービッグ,萩原正人
翔泳社