nikkie-ftnextの日記

イベントレポートや読書メモを発信

NLP(自然言語処理)

合成データからModernBERTを多クラス分類器にファインチューニング!した写経ログ

はじめに 七尾百合子さん、お誕生日 81日目 おめでとうございます! nikkieです。 気になっているModernBERTで、先人の記事に沿って多クラス分類のファインチューニングをしていきます! ModernBERTの自分用リンク集がこちら 目次 はじめに 目次 「Fine-tune…

気になる技術、ModernBERTの自分用リンク集

はじめに 七尾百合子さん、お誕生日 80日目 おめでとうございます! nikkieです。 いつもとはやや趣向を変えて、手元の情報の整理にこの記事を使います 目次 はじめに 目次 気になる、ModernBERT ModernBERT論文 ModernBERTを扱った記事 transformersで動か…

知識強化言語モデルの1つ LUKE をさがして(2025年1月時点)

はじめに みてみてLUKE1 nikkieです。 GPTの系列(デコーダ構成)とは異なりますが、(BERT系列の)LUKEというモデルについて知っていることをまとめます。 目次 はじめに 目次 『大規模言語モデル入門』より 資料類 EMNLP 2020 NLP2023 Hugging Face 公開モ…

松尾研 LLM コミュニティ "Paper & Hacks Vol.21"「合成データの作成について」視聴メモ #松尾研_LLM

はじめに 整合騎士、nikkie・シンセシス・ワンハンドレッドエイトです。 LLMの情報収集では、松尾研 LLM コミュニティに大変お世話になっています。 合成データ回の試聴メモを記事として残します(あくまで今の私の理解です)。 複数回見て、ようやく分かっ…

mecab-python3でMeCab.Tagger()初期化時の「[ifs] no such file or directory: /usr/local/etc/mecabrc」に対して、/dev/nullをmecabrcとして指定する

Today(※最近) I learnedシリーズ。 mecab-python3のドキュメントに書いてあります。 https://github.com/SamuraiT/mecab-python3/blob/v1.0.9/README.md#specifying-a-mecabrc You can specify an empty mecabrc like this: tagger = MeCab.Tagger('-r/dev…

HuggingFace CourseのCausal Language Modeling用データ処理のビデオを見たメモ

4分30秒と短いビデオですが、予期していた以上に学びがありました。 目次 目次 Causal Language Modeling 入力 正解ラベル Causal Language Modeling 雑にいうと、テキスト生成。 それまでに与えられたトークン列から次のトークンを予測します ビデオ中の例…

transformersのCausalLMの訓練では、正解も含めたひとつなぎのテキストを用意する

本日は簡易版、なかなか確証が持てずにいた事項が前進したのをアウトプットです。 目次 目次 CausalLM 馴染んでいた例:テキスト分類 テキスト生成の例 おまけ CausalLM transformersでテキスト生成タスクを扱うときに指定します。 causal language modelの…

改良、Hugging Face Blogの「Fine-Tuning Gemma Models in Hugging Face」〜tokenizerの扱いとformatting_func引数に渡す関数〜

はじめに 安かったから買ったってだけで!1 nikkieです。 Hugging Faceの記事の中に、Googleのgemmaをファインチューンする記事があります。 こちらについて手を動かす中で、どうやらデバッグに成功したように思われるのでこちらに記します。 なお、trlをは…

transformersのdata collator、何するものぞ?

はじめに ピーーーーーーー。1nikkieです。 transformersを使ったLLMのファインチューニング(SFT)のコードを最近眺めているのですが、data collatorという概念がよく分かっていません。 1日1エントリを使って調べてみます。 目次 はじめに 目次 transforme…

基本に立ち戻る:LLMのプロンプト

はじめに すべてのエンチャントを破壊する。 nikkieです 4月末に複数の勉強会でLLMのプロンプトについてインプットしました。 復習またハーケンとして、今回アウトプットします 目次 はじめに 目次 プロンプトってなんだったっけ?『大規模言語モデル入門』…

論文「Instruction Matters, a Simple yet Effective Task Selection Approach in Instruction Tuning for Specific Tasks」の研究上の位置づけを調べたメモ

はじめに シャニアニ5話、イルミネがギスギスにならなくてホントよかった nikkieです。 今回は、Instruction Tuningに関する論文を読んだメモです。 通読ではなく、研究上の位置づけが知られそうな箇所を読み進めました。 目次 はじめに 目次 「Instruction …

Instruction Tuningをさがして(2024年4月時点の理解まとめ)

はじめに みなさんは、死の先には何があると思いますか? nikkieです。 連休で「Instruction Tuning」を少し調べまして、現時点の理解をまとめます。 ※間違ったことを書いていたら@ftnextまでツッコミを入れてください!(お手柔らかにお願いします) 目次 …

『大規模言語モデル入門』8章で文埋め込みの理解を更新。単語埋め込みの平均じゃないんですね!

はじめに 色打掛は花嫁衣装、nikkieです 文埋め込み(文のベクトル)について、理解を更新したメモです 文埋め込み同士の距離は意味の類似度を表す (理解 NEW!!)文埋め込みは特徴量として使える (理解 NEW!!)文埋め込みは、単語埋め込みの平均ではない …

分かち書きした日本語テキストからROUGEをデフォルトで算出できる kurenai (紅) 0.0.1 をリリースしました💄

リリース報告エントリです。 kurenai(紅・くれない)をご紹介! 目次 目次 kurenai 0.0.1 なぜkurenaiを作った? 設計:rouge-scoreを薄くラップする kurenaiの今後(TODOリスト) 終わりに kurenai 0.0.1 pip install kurenai >>> from kurenai.rouge_scor…

rouge-scoreライブラリが日本語テキストからROUGEを算出できないのはなぜ? デフォルトでは英数字以外を除く挙動でした

はじめに ちはやぶる 神代も聞かず 竜田川、nikkieです。 ライブラリrouge-scoreをそのまま使うと、日本語テキストのROUGEは算出できないことを知りました。 目次 はじめに 目次 rouge-score サンプルコード Hugging Face Spacesで触る 分かち書きされた日本…

OpenAIのembedding新モデルのAPIで、英語や日本語テキストからembeddingsやその類似度を計算する

はじめに スケルツォ見てスッキリ。nikkieです。 OpenAIから2024年1月のアップデートが来ましたね。 その中の目玉と思われるembedding新モデルのAPIで少しだけ手を動かしました 目次 はじめに 目次 OpenAI embedding新モデルのAPI APIでembeddingを得て、テ…

LLMのtemperatureをさがして(この1年で見聞きした情報まとめ)

はじめに #ミリアニムビナナ異文化交流 ほんと最高 nikkieです。 LLM文脈で登場するtemperature(温度)なるものに関して、知っていることを書き出します。 読んで誤りに気づかれた場合は、@ftnextまでお知らせいただけると助かります。 目次 はじめに 目次 …

日本語言語理解ベンチマーク JGLUE の構築方法の論文を読みました。クラウドソーシングを活用して一から構築!

はじめに 日大藤沢、めっちゃいい nikkieです。 日本のお正月ということで、自然言語処理における日本語ベンチマークを見ていきたいと思います! 「ベンチマークってこうやって作るんだ〜」と興味深かったです。 目次 はじめに 目次 論文「JGLUE: 日本語言語…

multilingual-e5のUsageと同じコードがsentence-transformersで数行で書けます!(ただしtokenizerの呼び出しの引数を変えるのが難しい)

はじめに ジャングルパーティー!! 異次元フェス、行ってきました、nikkieです E5はtransformersから触ってもいいのですが、sentence-transformersからだと(特定のニーズを満たすコードは)数行で書けるということを見ていきます。 目次 はじめに 目次 mul…

multilingual-e5のUsageのaverage poolの実装を理解する 〜attention maskが0のトークンを除いて平均しているんだ!〜

はじめに プラチナランカー!! nikkieです transformers・PyTorchの組合せで、文のembeddingsを得るコードで理解したいことがありました。 理解を深める目的でこの記事でアウトプットします。 目次 はじめに 目次 E5 参考文献 average_pool関数、何をやって…

LangChain素振りの記:CookbookよりRewrite-Retrieve-Read。retrieveの前にクエリを書き換えるのか〜

この記事はUzabase Advent Calendar 2023 5日目にしちゃいます!先行するんだ、GO! はじめに 友情か? 使命か?1 nikkieです。 LLMに関心を持っており、1日1エントリという習慣を使ってたまに素振りしています。 今回は久しぶりにLangChainを素振りしました…

RAGの手法の中で気になったHyDE(Hypothetical Document Embeddings)を調べたログ

はじめに 大スター宮いちごまつりならぬ、コールスローまつり nikkieです。 OpenAI DevDayのセッションで 聞いた「HyDE retrieval」について、どんなものか調べました。 目次 はじめに 目次 StudyCoさんの勉強会アーカイブより概要を掴む 提案論文「Precise …

OpenAI DevDay「A Survey of Techniques for Maximizing LLM Performance」視聴ログ。プロンプトエンジニアリング・RAG・ファインチューニングを整理して、完全に理解した!

はじめに 今度は生き残りゲーム? インシテミルみたいな感じなのかな。 nikkieです。 めちゃめちゃ高揚するキーノートがあった、先日のOpenAI DevDay。 キーノート以外のセッションもアーカイブ公開されたと知り、気になった一本「A Survey of Techniques fo…

MyGPTsやAssistants APIとアニメについておしゃべりしてみる(ムビマス篇)

はじめに 「でも、私は天海春香だから。」 nikkieです。 かつてLangChainを使って、ChatGPTと劇場版『THE IDOLM@STER MOVIE 輝きの向こう側へ!』についておしゃべりしました。 OpenAI DevDayによってリリースされたものたちでも同じことができるか素振りし…

OpenAI DevDayで発表された「Parallel function calling」の例をPythonとopenaiライブラリで素振り

はじめに ダーク・コーリング! nikkieです。 OpenAI DevDayのキーノートを見て、めちゃめちゃ可能性を感じました1。 今回はDevDayでリリースされたアップデートの1つ「Parallel function calling」について素振りの模様をお届けします 目次 はじめに 目次 P…

要約タスクの評価指標 BLEUとROUGEの影にPerlありと知りました

はじめに 未来ちゃと静香ちゃんも赤と青。nikkieです。 以前書いた要約の評価指標について、思わぬつながりに気づいたことを綴っていきます 目次 はじめに 目次 要約タスクの評価指標 Perlスクリプトの面影 BLEU ROUGE 終わりに 要約タスクの評価指標 以前BE…

『大規模言語モデル入門』で要約タスクの評価指標の1つ BERTScore を知り、算出例と仕組みの理解で手を動かしました

はじめに 評価指標、ばーっといってみよー! nikkieです。 自然言語処理の要約タスクの評価指標に興味を持ち、『大規模言語モデル入門』を参照しました。 要約なので、テキストが生成されるわけです。 これを正解のテキストと比較するわけですが、テキスト同…

transformersのToken Classificationチュートリアルに沿ってconll2003でdistilbert-base-uncasedをファインチューニング

はじめに ファインチューニング、ばーっといってみよー! nikkieです えぬえるぴーやな素振り記事です。 チュートリアルに沿ってtransformersを使ってコーディングしました 目次 はじめに 目次 transformersのToken Classificationチュートリアル 動作環境 …

transformersのドキュメントの中からLukeForEntitySpanClassificationで固有表現認識する例を触る

はじめに スカイウォーカー! nikkieです。 えぬえるぴーやな素振り記事です。 るうく(LUKE)なるものが面妖なので触っていきます 目次 はじめに 目次 動作環境 LUKEって何よ transformersのドキュメントの例 深掘り テキスト中の単語に関するインデックス …

Apple Silicon・CPUで、ストックマークの最近の話題にも詳しいLLMを動かす

はじめに C102、土東6タ24bのアイうた合同誌をよろしくお願いします! nikkieです。 世はまさに大LLM時代。 国内の各社からもLLMが公開されています! ストックマークさんから公開されたLLMを手元のPCで動かしてみました。 目次 はじめに 目次 ストックマー…