nikkie-ftnextの日記

イベントレポートや読書メモを発信

NLP(自然言語処理)

文字列 中 の 半角 スペース を 正規表現 を 使っ て 削除 する

はじめに 文字列中の半角スペースを正規表現を使って削除する、nikkieです。 先日、はんなりプログラミングの会のボーネンLT会にて文字列の正規化処理を話しました。 その中から、「文字列中の半角スペースの削除」をエントリ化しちゃいます! ※このエントリ…

huggingface/tokenizersのNormalizer観察記 〜処理の部品化と統一されたインターフェース〜

はじめに う〜ん、おいし〜1 、nikkieです Python製OSSのソースコードを読むのが好きで、そこで得られた知見(新しく知った書き方や設計例)を実装の参考にします。 自然言語処理の前処理について参考にしたく、huggingface/tokenizersのソースコード(厳密…

イベントレポート | 「Attentionさえあればいい。」に参加、ようやく論文を完全理解できるかも #StudyCo

はじめに ともーだちーほーしーーーーー!!!! nikkieです1。 11/3に論文「Attention is All You Need」についての勉強会(StudyCoさん開催)に参加しました。 なかなか完全に理解に至れていないこの論文ですが、N度目かの正直で「今回は完全理解できそう2…

今の自然言語処理AIは #アイの歌声を聴かせて のシオンとどれくらい近いのか、感情分析機能を比較してみました

はじめに こんな景色、ずっと見たかった。"公開直後"からずっと! 吉田さん、興津さん、生コメンタリーラジオ みんなでアイうた ありがとうございました! 生コメンタリーラジオ#みんなでアイうたご視聴いただいた皆様そして、よっぴーさんと興津さんもあり…

『Transformerによる自然言語処理』のRoBERTa事前訓練のコードを、データをhuggingface/datasetsで読み込むように書き直す

はじめに 今日も素振りにとりくーみこ!1 nikkieです! 先日、『Transformerによる自然言語処理』の中のRoBERTaの事前訓練を写経したという記事を書きました: "考えながら写経"していて、いくつか掘り下げたい事項が出てきています。 今回はデータの読み込…

BERTの事前訓練をColabで動かしてみました(『Transformerによる自然言語処理』3章写経)

はじめに 「彼と出会った瞬間、私の人生が変わったの。(略) 世界が輝きだしたの」 (『四月は君の嘘』より) .alu-embed-iframe-anwzJyhsafh0oQqMH9IP { width: 424px !important; height: 292px; } @media screen and (max-width: 480px) { .alu-embed-if…

イベントレポート | Pythonで自然言語処理ハンズオン #はんなりPython

はじめに すごい、すごいよこれ。 nikkieです。 #はんなりPython 自然言語処理ハンズオン、ありがとうございました!transformersやばいですね。spaCyを彷彿とさせる簡単なインターフェース!モデルの指定を変えることしかしてないのに、日英の感情分析、日…

data2vecのSOTAを見せて(data2vec NLP Baseを動かしてみたログ)

はじめに 見守っていたんだよ、ずっと nikkieです。 この週末、data2vecというモデルを動かしてみました。 そのログを残します。 Meta AIが1月後半に発表したdata2vec、モデルとコードがfairseqのexampleとして公開されていたので、完全に理解したいとGLUEの…

イベントレポート | Python mini Hack-a-thon(オンライン)で"機械学習しました" #pyhack

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 週末の #pyhack で手を動かした内容についてブログに残します。 目次 はじめに 目次 勉強会の概要 取り組んだこと うまくいったこと 課題に感じていること 今後 勉強会の概要 (第112回)Python mi…

transformersのTFBertModelを使ってテキストを特徴量に変換し、ロジスティック回帰、ランダムフォレスト、MLPで分類を試しました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 そこで直近1クール(2020年3月末まで)は、自然言語処理のネタで毎週1本ブログを書くことにします。 今回で最終回を迎えま…

transformersのBERTをTensorFlowからいじって多クラス分類しようとしたところ、ハマった末に😫、BERTは特徴量生成に使うのがよさそうと体験しました🤗

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 3/9の週はもろもろ締切が重なりやむなく断念。 お気づきでしょうか、自然言語処理ネタで週1ブログを週末にリリースしていな…

『入門 自然言語処理』6章に取り組み、NLTKだけでも機械学習の分類問題にアプローチできることを知りました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 2/3の週から自然言語処理の基礎固めとして『入門 自然言語処理』に取り組んでいます。 入門 自然言語処理作者:Steven Bird,…

『入門 自然言語処理』12章から、分かち書きした日本語のテキストがNLTKに読み込め、扱いは意外と英語テキストと共通と学びました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 2/3の週から自然言語処理の基礎固めとして『入門 自然言語処理』に取り組んでいます。 入門 自然言語処理作者:Steven Bird,…

『入門 自然言語処理』5章を写経し、ルールベースと訓練、2種類の自動タグ付けの方法を学びました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 2/3の週から自然言語処理の基礎固めとして『入門 自然言語処理』に取り組んでいます。 入門 自然言語処理作者:Steven Bird,…

『入門 自然言語処理』5章から、英語テキストでも品詞分類できると知った私は、特定の品詞を取り出したWordCloudを試してみました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 先週から自然言語処理の基礎固めとして『入門 自然言語処理』に取り組んでいます。 入門 自然言語処理作者:Steven Bird,Ewa…

『入門 自然言語処理』3章をPython 3で写経し、テキスト処理の前処理であるステミングとトークン化についてインプットしました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 今週からは自然言語処理の基礎固めとして『入門 自然言語処理』に取り組んでいきます。 入門 自然言語処理作者:Steven Bird…

TensorFlowのドキュメントを確認し、tf.py_functionが何をやっているのか理解を深めました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 先週、総括としてライブドアニュース(日本語テキスト)の分類に取り組んだところ、tf.py_functionが何をやっているのか分…

tf.data でライブドアニュース(日本語テキスト)の分類に取り組んだところ、自分のコードの課題が見えました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 今週はここまでの総決算として、日本語テキストを分類するタスクにTensorFlowを使って取り組みました。 目次 はじめに 目次…

tf.dataを使って英文テキストを読み込み、分類するモデルを作るTensorFlowのチュートリアルに取り組みました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 今週はTensorFlowにおける新しめのデータの扱い方のチュートリアルに取り組みました。 チュートリアル「tf.data を使ったテ…

「Janome ではじめるテキストマイニング」の中のWordCloudのチュートリアルに取り組み、janomeを全然使いこなせていなかったと思い知りました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 今週は、1本目のブログで作ったWordCloudに使っているjanomeについて、チュートリアルに取り組んでの学びをまとめます。 前…

ニュースを分類するMLP(keras製)をpytorchで動くように書き直そう [後編]

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 週次ブログ駆動開発、「自然言語処理のタスクをするkeras(tensorflow)製のモデルをpytorchでも書いてみる」の後編です。 前編はこちら: 更新履歴 2020/04/12 末尾のグラフの直後に改行を追加し…

ニュースを分類するMLP(keras製)をpytorchで動くように書き直そう [前編]

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 初回はこちら: 今週のネタは「自然言語処理のタスクをするkeras(tensorflow)製のモデルをpytorchでも書いてみる」です。 …

自分が書いたはてなブログの記事でWordCloudを作り、2019年と2018年を比較する

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 先日「エンジニアの登壇を応援する会」の忘年LT大会にて、週1でブログを書くブログ駆動開発を知りました。 今週のネタ「自分の今年のブログのWordCloudを作る」についてブログを書きます。 宣言…