nikkie-ftnextの日記

イベントレポートや読書メモを発信

NLP(自然言語処理)

Apple Silicon・CPUでOpenCALM(3B)を動かす

はじめに 「人が幸せになるように呪う」、nikkieです。 今週公開された日本語LLMを動かしてみた際の備忘録です。 目次 はじめに 目次 サイバーエージェント発 OpenCALM 動作環境 Hugging Face Hubのサンプルコードを動かす CPUで動かすには、torch_dtype=tor…

Andrew Ng先生とIsa Fulfordさんによる講座「ChatGPT Prompt Engineering for Developers」(今なら期間限定無料)をオススメするスライドを公開しました

はじめに 俺、1万PVとかもらったことないから、すごい嬉しい。ありがとう1 nikkieです。 表題が全てです! 「ChatGPT Prompt Engineering for Developers」、めっちゃよいから(無料の今のうちに)みんな見て! 目次 はじめに 目次 スライド「ChatGPT Prompt…

キャメルケースをスネークケースに変換するにはどうする? Streamlitの実装に見つけた正規表現を使う例

はじめに 無惨さま、final付けてこ! nikkieです 文字列操作の小ネタです。 Streamlitの実装を見ていたところ、興味深い実装を見つけました。 目次 はじめに 目次 キャメルケースをスネークケースに変換する実装 in Streamlit 正規表現を使って、キャメルケ…

「ChatGPT Prompt Engineering for Developers」Summarizing 素振りの記

はじめに こぉ↑ひぃ↓かぁぷ→ のぞいたら♪1 nikkieです。 先日視聴し終えた「ChatGPT Prompt Engineering for Developers」。 その中から要約(Summarizing)についてサンプルコードを元に素振りしたログを残します。 目次 はじめに 目次 Summarizing 英語の…

DeepLearning.AIの「ChatGPT Prompt Engineering for Developers」を視聴し終えました。LLM時代の見取り図 得たり!勝ったなガハハ!

はじめに しかしまぁ視聴者からすると何に勝ってるのかは正直よくわからないがな、ガハハ! ref: https://dic.pixiv.net/a/%E5%8B%9D%E3%81%A3%E3%81%9F%E3%81%AA%E3%82%AC%E3%83%8F%E3%83%8F%21 nikkieです。 Large Language Model(大規模言語モデル、LLMs…

ねえ、ChatGPT? nikkieが4月に書いたブログのタイトル一覧があるんだけど、要約してどんな1ヶ月だったか教えてくれるかな?

$ omae-douyo https://nikkie-ftnext.hatenablog.com/archive/2023/4 この人物は主にプログラミングに関するブログ記事を書いているようです。 最近はPythonのcsvモジュールに取り組んでおり、空行やフィールド数の違うCSVファイルの読み込み方や、CSVファイ…

「機械学習を使って30分で固有表現抽出器を作るチュートリアル」を写経しました

はじめに わーい、ホッテントリ、わーい!1 nikkieです。 固有表現抽出(NER)タスクをCRF(Conditional Random Fields2)で解く実装の理解を深めたく、チュートリアルで素振りしました。 目次 はじめに 目次 Hironsanによるチュートリアル 素振り成果物 チ…

ChatGPTに日本語テキストを入力するとき、日本語テキストがどのように分割されてトークンに変換されるかをtiktokenでのぞく

はじめに これも1つの願いの鍵探し1、nikkieです。 先日tiktokenデビューし、ChatGPTのAPIを呼び出さずに入力トークン長が分かるようになりました。 その中で、ASCII以外の文字(例:日本語)については、トークン(bytesオブジェクト)がそのままでは読み解…

TikTokデビューならぬ、tiktokenデビュー! ChatGPT APIに送らずして入力トークン長が分かるんです

はじめに TikTokerじゃなくて、えぬえるぴーや1なnikkieです。 久しぶりのChatGPTネタです2。 ChatGPT(やLLM)ではトークンの長さに関心が向くことがあります。 そのトークンについて、OpenAI製のライブラリtiktokenの存在を知りました3。 素振りして分かっ…

文字列 中 の 半角 スペース を 正規表現 を 使っ て 削除 する

はじめに 文字列中の半角スペースを正規表現を使って削除する、nikkieです。 先日、はんなりプログラミングの会のボーネンLT会にて文字列の正規化処理を話しました。 その中から、「文字列中の半角スペースの削除」をエントリ化しちゃいます! ※このエントリ…

huggingface/tokenizersのNormalizer観察記 〜処理の部品化と統一されたインターフェース〜

はじめに う〜ん、おいし〜1 、nikkieです Python製OSSのソースコードを読むのが好きで、そこで得られた知見(新しく知った書き方や設計例)を実装の参考にします。 自然言語処理の前処理について参考にしたく、huggingface/tokenizersのソースコード(厳密…

イベントレポート | 「Attentionさえあればいい。」に参加、ようやく論文を完全理解できるかも #StudyCo

はじめに ともーだちーほーしーーーーー!!!! nikkieです1。 11/3に論文「Attention is All You Need」についての勉強会(StudyCoさん開催)に参加しました。 なかなか完全に理解に至れていないこの論文ですが、N度目かの正直で「今回は完全理解できそう2…

今の自然言語処理AIは #アイの歌声を聴かせて のシオンとどれくらい近いのか、感情分析機能を比較してみました

はじめに こんな景色、ずっと見たかった。"公開直後"からずっと! 吉田さん、興津さん、生コメンタリーラジオ みんなでアイうた ありがとうございました! 生コメンタリーラジオ#みんなでアイうたご視聴いただいた皆様そして、よっぴーさんと興津さんもあり…

『Transformerによる自然言語処理』のRoBERTa事前訓練のコードを、データをhuggingface/datasetsで読み込むように書き直す

はじめに 今日も素振りにとりくーみこ!1 nikkieです! 先日、『Transformerによる自然言語処理』の中のRoBERTaの事前訓練を写経したという記事を書きました: "考えながら写経"していて、いくつか掘り下げたい事項が出てきています。 今回はデータの読み込…

BERTの事前訓練をColabで動かしてみました(『Transformerによる自然言語処理』3章写経)

はじめに 「彼と出会った瞬間、私の人生が変わったの。(略) 世界が輝きだしたの」 (『四月は君の嘘』より) .alu-embed-iframe-anwzJyhsafh0oQqMH9IP { width: 424px !important; height: 292px; } @media screen and (max-width: 480px) { .alu-embed-if…

イベントレポート | Pythonで自然言語処理ハンズオン #はんなりPython

はじめに すごい、すごいよこれ。 nikkieです。 #はんなりPython 自然言語処理ハンズオン、ありがとうございました!transformersやばいですね。spaCyを彷彿とさせる簡単なインターフェース!モデルの指定を変えることしかしてないのに、日英の感情分析、日…

data2vecのSOTAを見せて(data2vec NLP Baseを動かしてみたログ)

はじめに 見守っていたんだよ、ずっと nikkieです。 この週末、data2vecというモデルを動かしてみました。 そのログを残します。 Meta AIが1月後半に発表したdata2vec、モデルとコードがfairseqのexampleとして公開されていたので、完全に理解したいとGLUEの…

イベントレポート | Python mini Hack-a-thon(オンライン)で"機械学習しました" #pyhack

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 週末の #pyhack で手を動かした内容についてブログに残します。 目次 はじめに 目次 勉強会の概要 取り組んだこと うまくいったこと 課題に感じていること 今後 勉強会の概要 (第112回)Python mi…

transformersのTFBertModelを使ってテキストを特徴量に変換し、ロジスティック回帰、ランダムフォレスト、MLPで分類を試しました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 そこで直近1クール(2020年3月末まで)は、自然言語処理のネタで毎週1本ブログを書くことにします。 今回で最終回を迎えま…

transformersのBERTをTensorFlowからいじって多クラス分類しようとしたところ、ハマった末に😫、BERTは特徴量生成に使うのがよさそうと体験しました🤗

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 3/9の週はもろもろ締切が重なりやむなく断念。 お気づきでしょうか、自然言語処理ネタで週1ブログを週末にリリースしていな…

『入門 自然言語処理』6章に取り組み、NLTKだけでも機械学習の分類問題にアプローチできることを知りました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 2/3の週から自然言語処理の基礎固めとして『入門 自然言語処理』に取り組んでいます。 入門 自然言語処理作者:Steven Bird,…

『入門 自然言語処理』12章から、分かち書きした日本語のテキストがNLTKに読み込め、扱いは意外と英語テキストと共通と学びました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 2/3の週から自然言語処理の基礎固めとして『入門 自然言語処理』に取り組んでいます。 入門 自然言語処理作者:Steven Bird,…

『入門 自然言語処理』5章を写経し、ルールベースと訓練、2種類の自動タグ付けの方法を学びました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 2/3の週から自然言語処理の基礎固めとして『入門 自然言語処理』に取り組んでいます。 入門 自然言語処理作者:Steven Bird,…

『入門 自然言語処理』5章から、英語テキストでも品詞分類できると知った私は、特定の品詞を取り出したWordCloudを試してみました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 先週から自然言語処理の基礎固めとして『入門 自然言語処理』に取り組んでいます。 入門 自然言語処理作者:Steven Bird,Ewa…

『入門 自然言語処理』3章をPython 3で写経し、テキスト処理の前処理であるステミングとトークン化についてインプットしました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 今週からは自然言語処理の基礎固めとして『入門 自然言語処理』に取り組んでいきます。 入門 自然言語処理作者:Steven Bird…

TensorFlowのドキュメントを確認し、tf.py_functionが何をやっているのか理解を深めました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 先週、総括としてライブドアニュース(日本語テキスト)の分類に取り組んだところ、tf.py_functionが何をやっているのか分…

tf.data でライブドアニュース(日本語テキスト)の分類に取り組んだところ、自分のコードの課題が見えました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 今週はここまでの総決算として、日本語テキストを分類するタスクにTensorFlowを使って取り組みました。 目次 はじめに 目次…

tf.dataを使って英文テキストを読み込み、分類するモデルを作るTensorFlowのチュートリアルに取り組みました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 今週はTensorFlowにおける新しめのデータの扱い方のチュートリアルに取り組みました。 チュートリアル「tf.data を使ったテ…

「Janome ではじめるテキストマイニング」の中のWordCloudのチュートリアルに取り組み、janomeを全然使いこなせていなかったと思い知りました

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2019年12月末から自然言語処理のネタで毎週1本ブログを書いています。 今週は、1本目のブログで作ったWordCloudに使っているjanomeについて、チュートリアルに取り組んでの学びをまとめます。 前…

ニュースを分類するMLP(keras製)をpytorchで動くように書き直そう [後編]

はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 週次ブログ駆動開発、「自然言語処理のタスクをするkeras(tensorflow)製のモデルをpytorchでも書いてみる」の後編です。 前編はこちら: 更新履歴 2020/04/12 末尾のグラフの直後に改行を追加し…