合成データからModernBERTを多クラス分類器にファインチューニング！した写経ログ

NLP(自然言語処理)

はじめに七尾百合子さん、お誕生日 81日目おめでとうございます！ nikkieです。気になっているModernBERTで、先人の記事に沿って多クラス分類のファインチューニングをしていきます！ ModernBERTの自分用リンク集がこちら目次はじめに目次「Fine-tune…

#modernBERT #synthetic data #多クラス分類

2025-06-05

気になる技術、ModernBERTの自分用リンク集

NLP(自然言語処理)

はじめに七尾百合子さん、お誕生日 80日目おめでとうございます！ nikkieです。いつもとはやや趣向を変えて、手元の情報の整理にこの記事を使います目次はじめに目次気になる、ModernBERT ModernBERT論文 ModernBERTを扱った記事 transformersで動か…

#modernBERT

2025-01-28

知識強化言語モデルの1つ LUKE をさがして（2025年1月時点）

NLP(自然言語処理)

はじめにみてみてLUKE1 nikkieです。 GPTの系列（デコーダ構成）とは異なりますが、（BERT系列の）LUKEというモデルについて知っていることをまとめます。目次はじめに目次『大規模言語モデル入門』より資料類 EMNLP 2020 NLP2023 Hugging Face 公開モ…

#LUKE #エンティティ #知識強化

2024-11-13

松尾研 LLM コミュニティ "Paper & Hacks Vol.21"「合成データの作成について」視聴メモ #松尾研_LLM

LLM NLP(自然言語処理)

はじめに整合騎士、nikkie・シンセシス・ワンハンドレッドエイトです。 LLMの情報収集では、松尾研 LLM コミュニティに大変お世話になっています。合成データ回の試聴メモを記事として残します（あくまで今の私の理解です）。複数回見て、ようやく分かっ…

#LLM #合成データ #synthetic data

2024-10-31

mecab-python3でMeCab.Tagger()初期化時の「[ifs] no such file or directory: /usr/local/etc/mecabrc」に対して、/dev/nullをmecabrcとして指定する

NLP(自然言語処理)

Today（※最近） I learnedシリーズ。 mecab-python3のドキュメントに書いてあります。 https://github.com/SamuraiT/mecab-python3/blob/v1.0.9/README.md#specifying-a-mecabrc You can specify an empty mecabrc like this: tagger = MeCab.Tagger('-r/dev…

#MeCab #mecab-python3 #mecabrc #/dev/null

2024-07-16

HuggingFace CourseのCausal Language Modeling用データ処理のビデオを見たメモ

LLM NLP(自然言語処理)

4分30秒と短いビデオですが、予期していた以上に学びがありました。目次目次 Causal Language Modeling 入力正解ラベル Causal Language Modeling 雑にいうと、テキスト生成。それまでに与えられたトークン列から次のトークンを予測しますビデオ中の例…

2024-05-23

transformersのCausalLMの訓練では、正解も含めたひとつなぎのテキストを用意する

NLP(自然言語処理)

本日は簡易版、なかなか確証が持てずにいた事項が前進したのをアウトプットです。目次目次 CausalLM 馴染んでいた例：テキスト分類テキスト生成の例おまけ CausalLM transformersでテキスト生成タスクを扱うときに指定します。 causal language modelの…

#transformers #CausalLM

2024-05-22

改良、Hugging Face Blogの「Fine-Tuning Gemma Models in Hugging Face」〜tokenizerの扱いとformatting_func引数に渡す関数〜

NLP(自然言語処理) LLM

はじめに安かったから買ったってだけで！1 nikkieです。 Hugging Faceの記事の中に、Googleのgemmaをファインチューンする記事があります。こちらについて手を動かす中で、どうやらデバッグに成功したように思われるのでこちらに記します。なお、trlをは…

#gemma #trl #SFTTrainer #Hugging Face

2024-05-21

transformersのdata collator、何するものぞ？

NLP(自然言語処理)

はじめにピーーーーーーー。1nikkieです。 transformersを使ったLLMのファインチューニング（SFT）のコードを最近眺めているのですが、data collatorという概念がよく分かっていません。 1日1エントリを使って調べてみます。目次はじめに目次 transforme…

#transformers #data collator

2024-05-05

基本に立ち戻る：LLMのプロンプト

NLP(自然言語処理) LLM

はじめにすべてのエンチャントを破壊する。 nikkieです 4月末に複数の勉強会でLLMのプロンプトについてインプットしました。復習またハーケンとして、今回アウトプットします目次はじめに目次プロンプトってなんだったっけ？『大規模言語モデル入門』…

#LLM #プロンプト #GPT-3 #Few-shot #in-context learning #文脈内学習 #CoT #chain of thought #ステップバイステップ

2024-05-04

論文「Instruction Matters, a Simple yet Effective Task Selection Approach in Instruction Tuning for Specific Tasks」の研究上の位置づけを調べたメモ

LLM NLP(自然言語処理)

はじめにシャニアニ5話、イルミネがギスギスにならなくてホントよかった nikkieです。今回は、Instruction Tuningに関する論文を読んだメモです。通読ではなく、研究上の位置づけが知られそうな箇所を読み進めました。目次はじめに目次「Instruction …

#Instruction Tuning #論文メモ #位置づけ #流れ

2024-04-29

Instruction Tuningをさがして（2024年4月時点の理解まとめ）

LLM NLP(自然言語処理)

はじめにみなさんは、死の先には何があると思いますか？ nikkieです。連休で「Instruction Tuning」を少し調べまして、現時点の理解をまとめます。 ※間違ったことを書いていたら@ftnextまでツッコミを入れてください！（お手柔らかにお願いします）目次 …

#LLM #Instruction Tuning #FLAN #Alpaca #ichikara-instruction

2024-04-03

『大規模言語モデル入門』8章で文埋め込みの理解を更新。単語埋め込みの平均じゃないんですね！

NLP(自然言語処理)

はじめに色打掛は花嫁衣装、nikkieです文埋め込み（文のベクトル）について、理解を更新したメモです文埋め込み同士の距離は意味の類似度を表す（理解 NEW!!）文埋め込みは特徴量として使える（理解 NEW!!）文埋め込みは、単語埋め込みの平均ではない …

#文埋め込み #文ベクトル #embeddings #大規模言語モデル入門

2024-03-23

分かち書きした日本語テキストからROUGEをデフォルトで算出できる kurenai (紅) 0.0.1 をリリースしました💄

NLP(自然言語処理)

リリース報告エントリです。 kurenai（紅・くれない）をご紹介！目次目次 kurenai 0.0.1 なぜkurenaiを作った？設計：rouge-scoreを薄くラップする kurenaiの今後（TODOリスト）終わりに kurenai 0.0.1 pip install kurenai >>> from kurenai.rouge_scor…

#rouge #rouge-score #日本語 #紅 kurenai

2024-03-15

rouge-scoreライブラリが日本語テキストからROUGEを算出できないのはなぜ？デフォルトでは英数字以外を除く挙動でした

NLP(自然言語処理)

はじめにちはやぶる神代も聞かず竜田川、nikkieです。ライブラリrouge-scoreをそのまま使うと、日本語テキストのROUGEは算出できないことを知りました。目次はじめに目次 rouge-score サンプルコード Hugging Face Spacesで触る分かち書きされた日本…

#rouge #rouge-score #日本語

2024-01-27

OpenAIのembedding新モデルのAPIで、英語や日本語テキストからembeddingsやその類似度を計算する

LLM NLP(自然言語処理)

はじめにスケルツォ見てスッキリ。nikkieです。 OpenAIから2024年1月のアップデートが来ましたね。その中の目玉と思われるembedding新モデルのAPIで少しだけ手を動かしました目次はじめに目次 OpenAI embedding新モデルのAPI APIでembeddingを得て、テ…

#OpenAI #openai-python #OpenAI API #Embedding #embeddings #埋め込み #コサイン類似度 #内積

2024-01-21

LLMのtemperatureをさがして（この1年で見聞きした情報まとめ）

NLP(自然言語処理)

はじめに #ミリアニムビナナ異文化交流ほんと最高 nikkieです。 LLM文脈で登場するtemperature（温度）なるものに関して、知っていることを書き出します。読んで誤りに気づかれた場合は、@ftnextまでお知らせいただけると助かります。目次はじめに目次 …

#LLM #OpenAI #大規模言語モデル #temperature #デコード #大規模言語モデル入門 #松尾研LLM講座 #Andrew Ng

2024-01-02

日本語言語理解ベンチマーク JGLUE の構築方法の論文を読みました。クラウドソーシングを活用して一から構築！

NLP(自然言語処理)

はじめに日大藤沢、めっちゃいい nikkieです。日本のお正月ということで、自然言語処理における日本語ベンチマークを見ていきたいと思います！「ベンチマークってこうやって作るんだ〜」と興味深かったです。目次はじめに目次論文「JGLUE: 日本語言語…

#言語理解 #ベンチマーク #JGLUE #クラウドソーシング

2023-12-11

multilingual-e5のUsageと同じコードがsentence-transformersで数行で書けます！（ただしtokenizerの呼び出しの引数を変えるのが難しい）

NLP(自然言語処理)

はじめにジャングルパーティー！！異次元フェス、行ってきました、nikkieです E5はtransformersから触ってもいいのですが、sentence-transformersからだと（特定のニーズを満たすコードは）数行で書けるということを見ていきます。目次はじめに目次 mul…

#e5 #sentence-transformers #embeddings #埋め込み #easy

2023-12-08

multilingual-e5のUsageのaverage poolの実装を理解する〜attention maskが0のトークンを除いて平均しているんだ！〜

NLP(自然言語処理) 機械学習

はじめにプラチナランカー！！ nikkieです transformers・PyTorchの組合せで、文のembeddingsを得るコードで理解したいことがありました。理解を深める目的でこの記事でアウトプットします。目次はじめに目次 E5 参考文献 average_pool関数、何をやって…

#transformers #PyTorch #average pool #embeddings #e5

2023-11-21

LangChain素振りの記：CookbookよりRewrite-Retrieve-Read。retrieveの前にクエリを書き換えるのか〜

NLP(自然言語処理)

この記事はUzabase Advent Calendar 2023 5日目にしちゃいます！先行するんだ、GO! はじめに友情か？使命か？1 nikkieです。 LLMに関心を持っており、1日1エントリという習慣を使ってたまに素振りしています。今回は久しぶりにLangChainを素振りしました…

#LangChain #RAG #Rewrite-Retrieve-Read #Rewrite

2023-11-17

RAGの手法の中で気になったHyDE（Hypothetical Document Embeddings）を調べたログ

NLP(自然言語処理)

はじめに大スター宮いちごまつりならぬ、コールスローまつり nikkieです。 OpenAI DevDayのセッションで聞いた「HyDE retrieval」について、どんなものか調べました。目次はじめに目次 StudyCoさんの勉強会アーカイブより概要を掴む提案論文「Precise …

#LLM #RAG #HYDE

2023-11-16

OpenAI DevDay「A Survey of Techniques for Maximizing LLM Performance」視聴ログ。プロンプトエンジニアリング・RAG・ファインチューニングを整理して、完全に理解した！

NLP(自然言語処理)

はじめに今度は生き残りゲーム？インシテミルみたいな感じなのかな。 nikkieです。めちゃめちゃ高揚するキーノートがあった、先日のOpenAI DevDay。キーノート以外のセッションもアーカイブ公開されたと知り、気になった一本「A Survey of Techniques fo…

#OpenAI #OpenAI DevDay #survey #プロンプトエンジニアリング #RAG #ファインチューニング

2023-11-13

MyGPTsやAssistants APIとアニメについておしゃべりしてみる（ムビマス篇）

NLP(自然言語処理) アニメ

はじめに「でも、私は天海春香だから。」 nikkieです。かつてLangChainを使って、ChatGPTと劇場版『THE IDOLM@STER MOVIE 輝きの向こう側へ！』についておしゃべりしました。 OpenAI DevDayによってリリースされたものたちでも同じことができるか素振りし…

#OpenAI #MyGPTs #Assistants API #openai-python #ムビマス #THE IDOLM@STER MOVIE 輝きの向こう側へ!

2023-11-09

OpenAI DevDayで発表された「Parallel function calling」の例をPythonとopenaiライブラリで素振り

NLP(自然言語処理) LLM

はじめにダーク・コーリング！ nikkieです。 OpenAI DevDayのキーノートを見て、めちゃめちゃ可能性を感じました1。今回はDevDayでリリースされたアップデートの1つ「Parallel function calling」について素振りの模様をお届けします目次はじめに目次 P…

#GPT #ChatGPT #Function calling #GPT-4 #OpenAI #openai-python #parallel

2023-10-16

要約タスクの評価指標 BLEUとROUGEの影にPerlありと知りました

NLP(自然言語処理)

はじめに未来ちゃと静香ちゃんも赤と青。nikkieです。以前書いた要約の評価指標について、思わぬつながりに気づいたことを綴っていきます目次はじめに目次要約タスクの評価指標 Perlスクリプトの面影 BLEU ROUGE 終わりに要約タスクの評価指標以前BE…

#要約 #評価指標 #BLEU #ROUGE #Perl

2023-09-18

『大規模言語モデル入門』で要約タスクの評価指標の1つ BERTScore を知り、算出例と仕組みの理解で手を動かしました

NLP(自然言語処理)

はじめに評価指標、ばーっといってみよー！ nikkieです。自然言語処理の要約タスクの評価指標に興味を持ち、『大規模言語モデル入門』を参照しました。要約なので、テキストが生成されるわけです。これを正解のテキストと比較するわけですが、テキスト同…

#要約 #大規模言語モデル入門 #評価指標 #BERTScore #BERT

2023-09-12

transformersのToken Classificationチュートリアルに沿ってconll2003でdistilbert-base-uncasedをファインチューニング

NLP(自然言語処理)

はじめにファインチューニング、ばーっといってみよー！ nikkieですえぬえるぴーやな素振り記事です。チュートリアルに沿ってtransformersを使ってコーディングしました目次はじめに目次 transformersのToken Classificationチュートリアル動作環境 …

#Hugging Face #transformers #CoNLL #BERT #distill #固有表現認識 #固有表現抽出 #NER #ファインチューニング #チュートリアル

2023-09-11

transformersのドキュメントの中からLukeForEntitySpanClassificationで固有表現認識する例を触る

NLP(自然言語処理)

はじめにスカイウォーカー！ nikkieです。えぬえるぴーやな素振り記事です。るうく（LUKE）なるものが面妖なので触っていきます目次はじめに目次動作環境 LUKEって何よ transformersのドキュメントの例深掘りテキスト中の単語に関するインデックス …

#LUKE #固有表現抽出 #固有表現認識 #entity span #分類

2023-08-10

Apple Silicon・CPUで、ストックマークの最近の話題にも詳しいLLMを動かす

NLP(自然言語処理)

はじめに C102、土東6タ24bのアイうた合同誌をよろしくお願いします！ nikkieです。世はまさに大LLM時代。国内の各社からもLLMが公開されています！ストックマークさんから公開されたLLMを手元のPCで動かしてみました。目次はじめに目次ストックマー…

#生成AI #LLMs #ストックマーク #環境構築

nikkie-ftnextの日記

イベントレポートや読書メモを発信

NLP(自然言語処理)

合成データからModernBERTを多クラス分類器にファインチューニング！した写経ログ

気になる技術、ModernBERTの自分用リンク集

知識強化言語モデルの1つ LUKE をさがして（2025年1月時点）

松尾研 LLM コミュニティ "Paper & Hacks Vol.21"「合成データの作成について」視聴メモ #松尾研_LLM

mecab-python3でMeCab.Tagger()初期化時の「[ifs] no such file or directory: /usr/local/etc/mecabrc」に対して、/dev/nullをmecabrcとして指定する

HuggingFace CourseのCausal Language Modeling用データ処理のビデオを見たメモ

transformersのCausalLMの訓練では、正解も含めたひとつなぎのテキストを用意する

改良、Hugging Face Blogの「Fine-Tuning Gemma Models in Hugging Face」〜tokenizerの扱いとformatting_func引数に渡す関数〜

transformersのdata collator、何するものぞ？

基本に立ち戻る：LLMのプロンプト

論文「Instruction Matters, a Simple yet Effective Task Selection Approach in Instruction Tuning for Specific Tasks」の研究上の位置づけを調べたメモ

Instruction Tuningをさがして（2024年4月時点の理解まとめ）

『大規模言語モデル入門』8章で文埋め込みの理解を更新。単語埋め込みの平均じゃないんですね！

分かち書きした日本語テキストからROUGEをデフォルトで算出できる kurenai (紅) 0.0.1 をリリースしました💄

rouge-scoreライブラリが日本語テキストからROUGEを算出できないのはなぜ？デフォルトでは英数字以外を除く挙動でした

OpenAIのembedding新モデルのAPIで、英語や日本語テキストからembeddingsやその類似度を計算する

LLMのtemperatureをさがして（この1年で見聞きした情報まとめ）

日本語言語理解ベンチマーク JGLUE の構築方法の論文を読みました。クラウドソーシングを活用して一から構築！

multilingual-e5のUsageと同じコードがsentence-transformersで数行で書けます！（ただしtokenizerの呼び出しの引数を変えるのが難しい）

multilingual-e5のUsageのaverage poolの実装を理解する〜attention maskが0のトークンを除いて平均しているんだ！〜

LangChain素振りの記：CookbookよりRewrite-Retrieve-Read。retrieveの前にクエリを書き換えるのか〜

RAGの手法の中で気になったHyDE（Hypothetical Document Embeddings）を調べたログ

OpenAI DevDay「A Survey of Techniques for Maximizing LLM Performance」視聴ログ。プロンプトエンジニアリング・RAG・ファインチューニングを整理して、完全に理解した！

MyGPTsやAssistants APIとアニメについておしゃべりしてみる（ムビマス篇）

OpenAI DevDayで発表された「Parallel function calling」の例をPythonとopenaiライブラリで素振り

要約タスクの評価指標 BLEUとROUGEの影にPerlありと知りました

『大規模言語モデル入門』で要約タスクの評価指標の1つ BERTScore を知り、算出例と仕組みの理解で手を動かしました

transformersのToken Classificationチュートリアルに沿ってconll2003でdistilbert-base-uncasedをファインチューニング

transformersのドキュメントの中からLukeForEntitySpanClassificationで固有表現認識する例を触る

Apple Silicon・CPUで、ストックマークの最近の話題にも詳しいLLMを動かす