tf.dataを使って英文テキストを読み込み、分類するモデルを作るTensorFlowのチュートリアルに取り組みました

はじめに

頑張れば、何かがあるって、信じてる。nikkieです。
2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。
今週はTensorFlowにおける新しめのデータの扱い方のチュートリアルに取り組みました。

チュートリアル「tf.data を使ったテキストの読み込み」

問題設定は、英文テキストの多クラス分類です。

データ：ホメロス（ホーマー）の『イリアス』（『イリアッド』）の英語翻訳版3通り
- cowper, derby, butler
推論：与えられたテキストがどの翻訳版のものか

以下の手順で進みました。

テキストのダウンロード
テキストをデータセットに読み込む
テキスト行を数字にエンコードする
データセットを、テスト用と訓練用のバッチに分割する（ハマりました😢）
モデルの構築・訓練

動作環境

$ sw_vers
ProductName:    Mac OS X
ProductVersion: 10.14.6
BuildVersion:   18G103
$ # 注：コードを動かすのにGPUは使っていません
$ python -V  # venvによる仮想環境を使用
Python 3.7.3
$ pip list  # grepを使って抜粋して表示
tensorflow               2.1.0
tensorflow-datasets      1.3.2
matplotlib               3.1.2

ipythonのコードでセルの番号が前後するのは、ブログを書くに当たり実行したコードがあるためです
乱数のシードを固定せずに実施しました。再現性を担保する場合、numpyのシードの固定やtensorflow.random.set_seed、shuffleメソッドのseed引数を指定することになると考えています（未実施）

そもそも、`tf.data`とは

2019年10月に行ったPyCon SingaporeのTensorFlow 2.0 チュートリアルでtf.dataについてインプットしていました¹。

チュートリアルによると、tf.dataの目的は、深層学習に取り組む上でCPUとGPUが交互に遊んでしまう（idle）状態の解決とのことでした。

tf.dataを使わない場合
- CPUでデータの準備をする間、GPUは遊ぶ
- GPUで学習をする間、CPUは遊ぶ
- これが交互に繰り返される
tf.dataを使う場合
- CPUでのデータの準備とGPUでの学習を同時に進める（パイプライン）

データをtf.data.Datasetとして扱うことで、CPUとGPUが交互に遊ぶ状態は解決されます。
さらにデータの扱い方（インターフェース）が揃うのもメリットだと考えます。

1. テキストのダウンロード

tf.keras.utils.get_fileを用いて、テキスト（『イリアス』の3種の英語翻訳）のURLを指定し、ダウンロードします。

In [4]: DIRECTORY_URL = 'https://storage.googleapis.com/download.tensorflow.org/data/illiad/'

In [5]: FILE_NAMES = ['cowper.txt', 'derby.txt', 'butler.txt']

In [6]: for name in FILE_NAMES:
   ...:     text_dir = tf.keras.utils.get_file(name, origin=DIRECTORY_URL+name)
   ...:

挙動：データがcacheにないため、ダウンロードする
- 必須引数fname：xxx.txt
- 必須引数origin：テキストのURL
- データのcache先はcache_dir引数とcache_subdir引数で指定
- 今回はどちらもデフォルト値（cache_dir引数がNone、cache_subdir引数が'datasets'）
- →$HOME/.keras/datasets/² にダウンロードされる
返り値：ダウンロードされたファイルを指すパス（手元のマシンの中のパス）
- 上記のcacheにダウンロードされたことを確認できます

このチュートリアルで使われているテキストファイルは、ヘッダ、フッタ、行番号、章のタイトルの削除など、いくつかの典型的な前処理を行ったものです。

との記載から、テキストの前処理はtf.dataを使う前に行うようです（前処理してbutler.txtなどと同じ形式（単語の半角スペース区切り）にする想定）。

$ head -n3 .keras/datasets/butler.txt  # 注：カレントディレクトリはホームディレクトリ
Sing, O goddess, the anger of Achilles son of Peleus, that brought
countless ills upon the Achaeans. Many a brave soul did it send
hurrying down to Hades, and many a hero did it yield a prey to dogs and

$ wc -l .keras/datasets/*.txt
   12131 .keras/datasets/butler.txt  # 24%
   19142 .keras/datasets/cowper.txt  # 39%
   18333 .keras/datasets/derby.txt  # 37%
   49606 total

1では、まだtf.dataは使っていません。

2. テキストをデータセットに読み込む

テキストは、tf.data.TextLineDataset³として読み込みます。

TextLineDataset は、テキストファイルからデータセットを作成するために設計されています。この中では、元のテキストファイルの一行一行がサンプルです。（チュートリアル冒頭より）

In [9]: def labeler(example, index):
   ...:     return example, tf.cast(index, tf.int64)
   ...:

In [10]: labeled_data_sets = []

In [11]: for i, file_name in enumerate(FILE_NAMES):
    ...:     lines_dataset = tf.data.TextLineDataset(os.path.join(parent_dir, file_name))
    ...:     labeled_dataset = lines_dataset.map(lambda ex: labeler(ex, i))
    ...:     labeled_data_sets.append(labeled_dataset)
    ...:

必須引数filenamesを指定してTextLineDatasetを作成します（for文の節の1行目）。

テキストファイルの1行1行についてラベルを付けます（for文の節の2行目）。
ラベルと翻訳の対応は以下の通りです。

ラベル	翻訳
0	cowper
1	derby
2	butler

（リストFILE_NAMESにおけるインデックスがラベルです）

TextLineDataset.mapを使って、lines_datasetの1件1件について、labeler関数を適用します。
labeler関数はラベルの型をtf.int64に変換します。

labeled_data_setsは

[0]：cowperによる翻訳テキスト
[1]：derbyによる翻訳テキスト
[2]：butlerによる翻訳テキストの順に並んでいます。

In [12]: len(labeled_data_sets)
Out[12]: 3

クラスごとに分かれているので、TextLineDataset.concatenateで一続きのDataset（all_labeled_data）になるように繋げます（concatenateした結果でall_labeled_dataを更新して繋げていく）。

In [16]: all_labeled_data = labeled_data_sets[0]

In [17]: for labeled_dataset in labeled_data_sets[1:]:
    ...:     all_labeled_data = all_labeled_data.concatenate(labeled_dataset)
    ...:

繋げた状態だとラベルが0→1→2と順番に並んでいるので、TextLineDataset.shuffleして並べ替えます。

In [23]: all_labeled_data = all_labeled_data.shuffle(
    ...:     BUFFER_SIZE, reshuffle_each_iteration=False)

並べ替えた後、all_labeled_data先頭3件を見ます。

In [18]: for ex in all_labeled_data.take(3):
    ...:     print(ex)
    ...:
(<tf.Tensor: shape=(), dtype=string, numpy=b'when his true comrade fell at the hands of the Trojans, and he now lies'>, <tf.Tensor: shape=(), dtype=int64, numpy=2>)
(<tf.Tensor: shape=(), dtype=string, numpy=b"On his broad palm, and darkness veil'd his eyes.">, <tf.Tensor: shape=(), dtype=int64, numpy=0>)
(<tf.Tensor: shape=(), dtype=string, numpy=b'All-bounteous Mercury clandestine there'>, <tf.Tensor: shape=(), dtype=int64, numpy=0>)

TextLineDataset.takeの返り値（Dataset）から取り出したexはtupleでした。
tupleのインデックス1の要素が、ラベルを表しています（tf.Tensorオブジェクトなるもの）。
ラベルの値（numpy）を見ると、先頭のテキストのラベルが2なので、シャッフルされていますね。

In [23]: type(ex)
Out[23]: tuple

In [26]: ex[0]  # テキストを表す
Out[26]: <tf.Tensor: shape=(), dtype=string, numpy=b'All-bounteous Mercury clandestine there'>

In [27]: ex[1]  # ラベルを表す
Out[27]: <tf.Tensor: shape=(), dtype=int64, numpy=0>

ここでは、テキスト行にクラスを表すラベルを付け、1つのDatasetとしてまとめることをしました。

3. テキスト行を数字にエンコードする

機械学習モデルが扱うのは単語ではなくて数字であるため、文字列は数字のリストに変換する必要があります。

ロイター通信のデータセットのように⁴、整数の並びにするということですね。
以下の2ステップでした。

ボキャブラリーの構築
テキストのエンコード

ボキャブラリーの構築

tfds.features.text.Tokenizerを使って、テキストに含まれる単語を取り出します。

In [28]: sample_tokenizer = tfds.features.text.Tokenizer()

In [29]: ex[0].numpy()
Out[29]: b'All-bounteous Mercury clandestine there'

In [30]: sample_tokenizer.tokenize(ex[0].numpy())
Out[30]: ['All', 'bounteous', 'Mercury', 'clandestine', 'there']

TextLineDatasetの1件1件（タプル）では、インデックス0がテキストを表します。
テキスト自体はnumpy()メソッドで取得できます。
これをTokenizer.tokenizeに与えると、単語を格納したリストが返ります。

全てのテキストについて上記の処理を繰り返し、入手した単語をボキャブラリーとします。
tokenizeの返り値をセットに入れることで、重複を除きます。

In [32]: tokenizer = tfds.features.text.Tokenizer()

In [33]: vocabulary_set = set()

In [34]: for text_tensor, _ in all_labeled_data:
    ...:     some_tokens = tokenizer.tokenize(text_tensor.numpy())
    ...:     vocabulary_set.update(some_tokens)
    ...:

In [35]: vocab_size = len(vocabulary_set)

In [36]: vocab_size
Out[36]: 17178

日本語テキストを扱う場合は、Tokenizer初期化時にalphanum_only引数をFalseに指定することになりそうです。

テキストのエンコード

vocabulary_set を tfds.features.text.TokenTextEncoder に渡してエンコーダーを作成します。

In [37]: encoder = tfds.features.text.TokenTextEncoder(vocabulary_set)

エンコーダTokenTextEncoderは、

必須引数vocab_listを渡して初期化
encodeメソッドにテキストを渡すと、変換した整数のリスト（a list of integers）を返す

これを使って、all_labeled_dataの各テキストを、整数が並んだリストに置き換えます。

In [43]: def encode(text_tensor, label):
    ...:     encoded_text = encoder.encode(text_tensor.numpy())
    ...:     return encoded_text, label
    ...:

In [44]: def encode_map_fn(text, label):
    ...:     encoded_text, label = tf.py_function(
    ...:         encode, inp=[text, label], Tout=(tf.int64, tf.int64))
    ...:     encoded_text.set_shape([None])
    ...:     label.set_shape([])
    ...:     return encoded_text, label
    ...:

In [45]: all_encoded_data = all_labeled_data.map(encode_map_fn)

tf.py_functionについては今回掘り下げられていないのですが、ドキュメントの中に

tf.function が呼び出されるたびに Python のコードを実行したいのであれば、tf.py_function がぴったりです。

という記載を見つけました⁵。
all_labeled_dataの1件1件にmapメソッドを介してencode関数を適用するために使っているようです。
set_shapeのあたりは言語化できるレベルで理解できていないのですが、tf.functionとの関係の中でとらえるとよさそうです。

エンコードしたテキストの確認

In [40]: for ex in all_encoded_data.take(3):
    ...:     print(ex)
    ...:
(<tf.Tensor: shape=(15,), dtype=int64, numpy=
array([ 7516,  2349, 11186, 13393,  4276,  1931,  1495,  8889, 16159,
        1495,  6530,   423,  5728,  1429, 12401])>, <tf.Tensor: shape=(), dtype=int64, numpy=2>)
(<tf.Tensor: shape=(10,), dtype=int64, numpy=
array([ 4287,  2349,   384,  3282,   423,  8741, 14597,  2713,  2349,
        5192])>, <tf.Tensor: shape=(), dtype=int64, numpy=0>)
(<tf.Tensor: shape=(5,), dtype=int64, numpy=array([14260, 10012,  1468,   907,  9474])>, <tf.Tensor: shape=(), dtype=int64, numpy=0>)

4. データセットを、テスト用と訓練用のバッチに分割する

小さなテスト用データセットと、より大きな訓練用セットを作成します。

テスト用データはTextLineDataset.takeで先頭から取り出す
訓練用データはTextLineDataset.skipで、先頭からテスト用データを避けて取り出す

訓練用データとテスト用データを「バッチ化」します。
先ほど見たように、テキストを変換した整数のリストの長さは異なります（元のテキストの単語数が異なるため）。
バッチ化にあたり、短いリストには0を埋めて、同じサイズにします。

ハマった：`TextLineDataset.padded_batch`

チュートリアルのコードのとおりに実行すると、必須引数2つが指定されていないためにエラーが発生します。

In [41]: train_data = all_encoded_data.skip(TAKE_SIZE).shuffle(BUFFER_SIZE)

In [42]: train_data = train_data.padded_batch(BATCH_SIZE)
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-42-8afff0f1d82a> in <module>
----> 1 train_data = train_data.padded_batch(BATCH_SIZE)

TypeError: padded_batch() missing 1 required positional argument: 'padded_shapes'

padded_shapes引数について

A nested structure of tf.TensorShape or tf.int64 vector tensor-like objects representing the shape to which the respective component of each input element should be padded prior to batching. Any unknown dimensions (e.g. tf.compat.v1.Dimension(None) in a tf.TensorShape or-1 in a tensor-like object) will be padded to the maximum size of that dimension in each batch.

解決の参考になったのは、以下のIssueのコード：

output_shapes_train = tf.compat.v1.data.get_output_shapes(ds_train)

tf.compat.v1.data.get_output_shapesでall_encoded_dataのoutput shapesを取得し、padded_batchのpadded_shapes引数に渡します。

In [45]: output_shapes = tf.compat.v1.data.get_output_shapes(all_encoded_data)

In [46]: output_shapes
Out[46]: (TensorShape([None]), TensorShape([]))

In [47]: train_data = train_data.padded_batch(BATCH_SIZE, output_shapes)

train_dataのバッチのうち、先頭1件を確認します。

In [52]: for sample_text, sample_label in train_data.take(1):
    ...:     print(sample_text)
    ...:     print('-' * 40)
    ...:     print(sample_label)
    ...:
tf.Tensor(
[[ 9310   722 10783 ...     0     0     0]
 [ 5766 12211 13137 ...     0     0     0]
 [ 2584 10652  4521 ...     0     0     0]
 ...
 [ 7497  8881  8781 ...     0     0     0]
 [ 6450  7516  1495 ...     0     0     0]
 [ 1785  2713 15027 ...     0     0     0]], shape=(64, 17), dtype=int64)
----------------------------------------
tf.Tensor(
[1 0 0 0 2 2 2 1 0 0 0 0 2 2 0 0 0 0 2 1 1 0 1 0 1 1 1 0 1 1 1 1 1 2 2 0 2
 0 1 0 2 2 2 2 1 2 1 0 2 1 0 0 0 0 0 2 1 1 0 1 0 2 0 0], shape=(64,), dtype=int64)

sample_textの整数の並びは終わりが0となって、長さが揃っていますね。
BATCH_SIZEでまとまっています（これがバッチ化という認識です）。

テスト用データも同様にバッチ化します。

In [55]: test_data = all_encoded_data.take(TAKE_SIZE)

In [56]: test_data = test_data.padded_batch(BATCH_SIZE, output_shapes)

0という新しい番号で埋めたので、ボキャブラリーサイズを1増やします。

In [57]: vocab_size += 1

5. モデルの構築・訓練

チュートリアルではテスト用データを訓練中のバリデーションに使っているのが気になったので、テスト用・バリデーション用・訓練用に分けました。

In [82]: test_data = all_encoded_data.take(TAKE_SIZE)

In [83]: test_data = test_data.padded_batch(BATCH_SIZE, output_shapes)

In [84]: train_data = all_encoded_data.skip(TAKE_SIZE).shuffle(BUFFER_SIZE)

In [85]: val_data = train_data.take(TAKE_SIZE)

In [86]: val_data = val_data.padded_batch(BATCH_SIZE, output_shapes)

In [87]: train_data = train_data.skip(TAKE_SIZE).shuffle(BUFFER_SIZE)

In [88]: train_data = train_data.padded_batch(BATCH_SIZE, output_shapes)

チュートリアルに沿ったモデルとします。

In [89]: model = tf.keras.Sequential(
    ...:     [
    ...:         tf.keras.layers.Embedding(vocab_size, 64),
    ...:         tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64)),
    ...:         tf.keras.layers.Dense(64, activation='relu'),
    ...:         tf.keras.layers.Dense(64, activation='relu'),
    ...:         tf.keras.layers.Dense(3, activation='softmax')
    ...:     ]
    ...: )

Embedding layer
LSTM
Dense 1
Dense 2
Dense 3（softmaxをとって、3クラスのどれかに分類）

In [90]: model.compile(optimizer='adam', loss='sparse_categorical_crossentropy',
    ...:  metrics=['accuracy'])

In [91]: history = model.fit(train_data, epochs=3, validation_data=val_data)
Epoch 1/3
    619/Unknown - 21s 33ms/step - loss: 0.5528 - accuracy: 0.72992020-01-19 13:15:39.947590: W tensorflow/core/common_runtime/base_collective_executor.cc:217] BaseCollectiveExecutor::StartAbort Out of range: End of sequence
     [[{{node IteratorGetNext}}]]
2020-01-19 13:15:48.626987: W tensorflow/core/common_runtime/base_collective_executor.cc:217] BaseCollectiveExecutor::StartAbort Out of range: End of sequence
     [[{{node IteratorGetNext}}]]
619/619 [==============================] - 29s 47ms/step - loss: 0.5528 - accuracy: 0.7299 - val_loss: 0.3283 - val_accuracy: 0.8696
Epoch 2/3
617/619 [============================>.] - ETA: 0s - loss: 0.3209 - accuracy: 0.85992020-01-19 13:16:15.284238: W tensorflow/core/common_runtime/base_collective_executor.cc:217] BaseCollectiveExecutor::StartAbort Out of range: End of sequence
     [[{{node IteratorGetNext}}]]
619/619 [==============================] - 27s 43ms/step - loss: 0.3207 - accuracy: 0.8599 - val_loss: 0.2153 - val_accuracy: 0.9172
Epoch 3/3
615/619 [============================>.] - ETA: 0s - loss: 0.2440 - accuracy: 0.89502020-01-19 13:16:41.786026: W tensorflow/core/common_runtime/base_collective_executor.cc:217] BaseCollectiveExecutor::StartAbort Out of range: End of sequence
     [[{{node IteratorGetNext}}]]
619/619 [==============================] - 27s 43ms/step - loss: 0.2438 - accuracy: 0.8951 - val_loss: 0.1813 - val_accuracy: 0.9298

テスト用データに対しての正解率は84.0%でした（チュートリアル通り）

In [92]: eval_loss, eval_acc = model.evaluate(test_data)
     79/Unknown - 2s 23ms/step - loss: 0.3762 - accuracy: 0.83962020-01-19 13:21:13.484423: W tensorflow/core/common_runtime/base_collective_executor.cc:217] BaseCollectiveExecutor::StartAbort Out of range: End of sequence
     [[{{node IteratorGetNext}}]]
     79/Unknown - 2s 23ms/step - loss: 0.3762 - accuracy: 0.8396
In [93]: f'Eval loss: {eval_loss}, Eval accuracy: {eval_acc}'
Out[93]: 'Eval loss: 0.37618066295038294, Eval accuracy: 0.8396000266075134'

過去に作った plot_accuracy 関数⁶を使って、学習状況を可視化します。

f:id:nikkie-ftnext:20200119141000p:plain

訓練用データにおける正解率がバリデーション用データにおける正解率を下回っているため、学習不足という印象です。
epochsはもう少し増やせそうです。

感想

初めてしっかり触ったtf.data。
この取り組みの中ではこれまで、tf.keras.preprocessing.text.Tokenizerでテキストをnumpyのarrayに変換して扱いました。
tf.dataにはTensorやtf.functionなど関係するものが多くまだ掴みきれていないのですが、データの扱いが揃うのは便利そうなので、引き続き触っていきたいです（読めるコードも増えそうですし）。
kerasのTokenizerとtfdsのTokenizer, TokenTextEncoderは役割がかぶっている印象ですが、どちらを使ったほうがいいという指針があるのか、私、気になります！

学んだこと

TensorFlowだけの利用で英語のテキストを数値にエンコードする方法
テキストを扱うときに有効と聞くEmbeddingやLSTMのlayerの使い方（の初めの一歩）

Future Works（今後のネタ帳）

tf.dataで日本語を扱ってみる
- tf.data.Dataset apiでテキスト (自然言語処理) の前処理をする方法をまとめる - Qiita から始めてアドカレをなぞる
ドキュメントにある他のチュートリアル
- 映画レビューのテキスト分類 | TensorFlow Core
- Text classification with TensorFlow Hub: Movie reviews
Tensorの扱いを調べる
tf.functionを調べる
ロイター通信のアウトプットを更新（Datasetとして扱う、モデルをアップデート）
このチュートリアルでラベルのone hot encodingを試したい

スライド中の図はドキュメントから更新されたようです。ドキュメント内の説明はこちら：Better performance with the tf.data API | TensorFlow Core ↩
get_fileのドキュメントより「By default the file at the url origin is downloaded to the cache_dir ~/.keras, placed in the cache_subdir datasets, and given the filename fname.」↩
issubclass(tf.data.TextLineDataset, tf.data.Dataset)がTrueなので、tf.data.TextLineDatasetはtf.data.Datasetのサブクラスです（tf.data.Datasetと同様にパイプラインでデータを扱えるということです）ref:ドキュメント組み込み関数issubclass↩
[前処理編] ロイター通信のデータセットを用いて、ニュースをトピックに分類するモデル(MLP)をkerasで作る（TensorFlow 2系） - Qiita ↩
ref: tf.function で性能アップ | TensorFlow Core ↩
ref: [モデル構築編] ロイター通信のデータセットを用いて、ニュースをトピックに分類するモデル(MLP)をkerasで作る（TensorFlow 2系） - Qiita ↩

nikkie-ftnextの日記

イベントレポートや読書メモを発信

tf.dataを使って英文テキストを読み込み、分類するモデルを作るTensorFlowのチュートリアルに取り組みました

はじめに

チュートリアル「tf.data を使ったテキストの読み込み」

動作環境

そもそも、`tf.data`とは

1. テキストのダウンロード

2. テキストをデータセットに読み込む

3. テキスト行を数字にエンコードする

ボキャブラリーの構築

テキストのエンコード

4. データセットを、テスト用と訓練用のバッチに分割する

ハマった：`TextLineDataset.padded_batch`

5. モデルの構築・訓練

感想

Future Works（今後のネタ帳）

はじめに

チュートリアル「tf.data を使ったテキストの読み込み」

動作環境

そもそも、tf.dataとは

1. テキストのダウンロード

2. テキストをデータセットに読み込む

3. テキスト行を数字にエンコードする

ボキャブラリーの構築

テキストのエンコード

4. データセットを、テスト用と訓練用のバッチに分割する

ハマった：TextLineDataset.padded_batch

5. モデルの構築・訓練

感想

Future Works（今後のネタ帳）

そもそも、`tf.data`とは

ハマった：`TextLineDataset.padded_batch`