nikkie-ftnextの日記

イベントレポートや読書メモを発信

NLP(自然言語処理)

『大規模言語モデル入門』8章で文埋め込みの理解を更新。単語埋め込みの平均じゃないんですね!

はじめに 色打掛は花嫁衣装、nikkieです 文埋め込み(文のベクトル)について、理解を更新したメモです 文埋め込み同士の距離は意味の類似度を表す (理解 NEW!!)文埋め込みは特徴量として使える (理解 NEW!!)文埋め込みは、単語埋め込みの平均ではない …

分かち書きした日本語テキストからROUGEをデフォルトで算出できる kurenai (紅) 0.0.1 をリリースしました💄

リリース報告エントリです。 kurenai(紅・くれない)をご紹介! 目次 目次 kurenai 0.0.1 なぜkurenaiを作った? 設計:rouge-scoreを薄くラップする kurenaiの今後(TODOリスト) 終わりに kurenai 0.0.1 pip install kurenai >>> from kurenai.rouge_scor…

rouge-scoreライブラリが日本語テキストからROUGEを算出できないのはなぜ? デフォルトでは英数字以外を除く挙動でした

はじめに ちはやぶる 神代も聞かず 竜田川、nikkieです。 ライブラリrouge-scoreをそのまま使うと、日本語テキストのROUGEは算出できないことを知りました。 目次 はじめに 目次 rouge-score サンプルコード Hugging Face Spacesで触る 分かち書きされた日本…

OpenAIのembedding新モデルのAPIで、英語や日本語テキストからembeddingsやその類似度を計算する

はじめに スケルツォ見てスッキリ。nikkieです。 OpenAIから2024年1月のアップデートが来ましたね。 その中の目玉と思われるembedding新モデルのAPIで少しだけ手を動かしました 目次 はじめに 目次 OpenAI embedding新モデルのAPI APIでembeddingを得て、テ…

LLMのtemperatureをさがして(この1年で見聞きした情報まとめ)

はじめに #ミリアニムビナナ異文化交流 ほんと最高 nikkieです。 LLM文脈で登場するtemperature(温度)なるものに関して、知っていることを書き出します。 読んで誤りに気づかれた場合は、@ftnextまでお知らせいただけると助かります。 目次 はじめに 目次 …

日本語言語理解ベンチマーク JGLUE の構築方法の論文を読みました。クラウドソーシングを活用して一から構築!

はじめに 日大藤沢、めっちゃいい nikkieです。 日本のお正月ということで、自然言語処理における日本語ベンチマークを見ていきたいと思います! 「ベンチマークってこうやって作るんだ〜」と興味深かったです。 目次 はじめに 目次 論文「JGLUE: 日本語言語…

multilingual-e5のUsageと同じコードがsentence-transformersで数行で書けます!(ただしtokenizerの呼び出しの引数を変えるのが難しい)

はじめに ジャングルパーティー!! 異次元フェス、行ってきました、nikkieです E5はtransformersから触ってもいいのですが、sentence-transformersからだと(特定のニーズを満たすコードは)数行で書けるということを見ていきます。 目次 はじめに 目次 mul…

multilingual-e5のUsageのaverage poolの実装を理解する 〜attention maskが0のトークンを除いて平均しているんだ!〜

はじめに プラチナランカー!! nikkieです transformers・PyTorchの組合せで、文のembeddingsを得るコードで理解したいことがありました。 理解を深める目的でこの記事でアウトプットします。 目次 はじめに 目次 E5 参考文献 average_pool関数、何をやって…

LangChain素振りの記:CookbookよりRewrite-Retrieve-Read。retrieveの前にクエリを書き換えるのか〜

この記事はUzabase Advent Calendar 2023 5日目にしちゃいます!先行するんだ、GO! はじめに 友情か? 使命か?1 nikkieです。 LLMに関心を持っており、1日1エントリという習慣を使ってたまに素振りしています。 今回は久しぶりにLangChainを素振りしました…

RAGの手法の中で気になったHyDE(Hypothetical Document Embeddings)を調べたログ

はじめに 大スター宮いちごまつりならぬ、コールスローまつり nikkieです。 OpenAI DevDayのセッションで 聞いた「HyDE retrieval」について、どんなものか調べました。 目次 はじめに 目次 StudyCoさんの勉強会アーカイブより概要を掴む 提案論文「Precise …

OpenAI DevDay「A Survey of Techniques for Maximizing LLM Performance」視聴ログ。プロンプトエンジニアリング・RAG・ファインチューニングを整理して、完全に理解した!

はじめに 今度は生き残りゲーム? インシテミルみたいな感じなのかな。 nikkieです。 めちゃめちゃ高揚するキーノートがあった、先日のOpenAI DevDay。 キーノート以外のセッションもアーカイブ公開されたと知り、気になった一本「A Survey of Techniques fo…

MyGPTsやAssistants APIとアニメについておしゃべりしてみる(ムビマス篇)

はじめに 「でも、私は天海春香だから。」 nikkieです。 かつてLangChainを使って、ChatGPTと劇場版『THE IDOLM@STER MOVIE 輝きの向こう側へ!』についておしゃべりしました。 OpenAI DevDayによってリリースされたものたちでも同じことができるか素振りし…

OpenAI DevDayで発表された「Parallel function calling」の例をPythonとopenaiライブラリで素振り

はじめに ダーク・コーリング! nikkieです。 OpenAI DevDayのキーノートを見て、めちゃめちゃ可能性を感じました1。 今回はDevDayでリリースされたアップデートの1つ「Parallel function calling」について素振りの模様をお届けします 目次 はじめに 目次 P…

要約タスクの評価指標 BLEUとROUGEの影にPerlありと知りました

はじめに 未来ちゃと静香ちゃんも赤と青。nikkieです。 以前書いた要約の評価指標について、思わぬつながりに気づいたことを綴っていきます 目次 はじめに 目次 要約タスクの評価指標 Perlスクリプトの面影 BLEU ROUGE 終わりに 要約タスクの評価指標 以前BE…

『大規模言語モデル入門』で要約タスクの評価指標の1つ BERTScore を知り、算出例と仕組みの理解で手を動かしました

はじめに 評価指標、ばーっといってみよー! nikkieです。 自然言語処理の要約タスクの評価指標に興味を持ち、『大規模言語モデル入門』を参照しました。 要約なので、テキストが生成されるわけです。 これを正解のテキストと比較するわけですが、テキスト同…

transformersのToken Classificationチュートリアルに沿ってconll2003でdistilbert-base-uncasedをファインチューニング

はじめに ファインチューニング、ばーっといってみよー! nikkieです えぬえるぴーやな素振り記事です。 チュートリアルに沿ってtransformersを使ってコーディングしました 目次 はじめに 目次 transformersのToken Classificationチュートリアル 動作環境 …

transformersのドキュメントの中からLukeForEntitySpanClassificationで固有表現認識する例を触る

はじめに スカイウォーカー! nikkieです。 えぬえるぴーやな素振り記事です。 るうく(LUKE)なるものが面妖なので触っていきます 目次 はじめに 目次 動作環境 LUKEって何よ transformersのドキュメントの例 深掘り テキスト中の単語に関するインデックス …

Apple Silicon・CPUで、ストックマークの最近の話題にも詳しいLLMを動かす

はじめに C102、土東6タ24bのアイうた合同誌をよろしくお願いします! nikkieです。 世はまさに大LLM時代。 国内の各社からもLLMが公開されています! ストックマークさんから公開されたLLMを手元のPCで動かしてみました。 目次 はじめに 目次 ストックマー…

素振りの記:BERT-CRFで固有表現認識したい!『大規模言語モデル入門』6章でクイックツアー

はじめに 無敵級ビリーバー3周年 nikkieです。 「お休みの日にしかできないことを」と追求した結果、最近のお休みは開発合宿感があります。 今回は気になっていた技術、BERT-CRFを触りました。 目次 はじめに 目次 ずっと引っかかっていたBERT-CRF 『大規模…

論文「Is Information Extraction Solved by ChatGPT? (arXiv:2305.14450)」を論文紹介という巨人の肩に乗って追いかける

はじめに 解かれたのかい?解かれないのかい?どっちなんだい? nikkieです。 Twitterのタイムラインで見かけた論文紹介から興味を持ち、論文を少し追ってみました。 記事にして、セーブポイントを作ります 目次 はじめに 目次 Is Information Extraction So…

LangChainのRetrievalQAを使い文脈をプロンプトに含めることで、ChatGPTとアニメについておしゃべりしてみる(ムビマス篇)

はじめに 「でも、私は天海春香だから。」 nikkieです。 LLM・LangChain関係の素振りですが、今回は自分の趣味嗜好に振り切ります。 文脈をプロンプトに含めて、LLMさんとアニメについておしゃべりするぞ〜! 目次 はじめに 目次 やりたいこと「文脈をプロン…

LangChain素振りの記:sentence-transformersで計算したembeddingsをChromaに保存して検索する

はじめに 7月はナイスなstapyです。みんな来てね! nikkieです。 StudyCoさんの勉強会アーカイブを機に、LangChainを使って文脈をプロンプトに含めてLLM(ChatGPT)に問い合わせるコードを動かしました。 この理解を深めるべく、「文脈をプロンプトに含める…

ライブラリsentence-transformersのサンプルコードを動かし、英語や日本語テキストからembeddingsやその類似度を計算する

はじめに アヤさん、たんじょーび、おめでとう!! nikkieです。 みんなアイうた見ていて嬉しい限り♪ sentence-transformersというPythonのライブラリがあります。 こいつでembeddings(テキストの埋め込み表現)が計算できるらしく、気になったので触ってみ…

「プロンプトエンジニアリングから始めるLangChain入門」の例をChatGPTを使うように書き直す(Indexes、小さな例で動かせた!) #StudyCo

はじめに 『かがみの孤城』円盤発売まであと1️⃣日、こころちゃああああんんんんん!!! コホン。こころちゃんのパラレルワールドでは、6/27は月曜日。nikkieです。 LangChain、LLMを使ったアプリケーションが僅かなコードで開発できるのが楽しく、キャッチ…

「プロンプトエンジニアリングから始めるLangChain入門」の例をChatGPTを使うように書き直す(Models, Prompts, Chains) #StudyCo

はじめに 『かがみの孤城』円盤発売まであと2️⃣日、リオンくん! リオンくんのパラレルワールドでは、6/26は日曜日。nikkieです。 アーカイブを視聴して概念を理解したLangChain、ちょっとだけ触ってみました。 目次 はじめに 目次 前回、「プロンプトエンジ…

4月の「プロンプトエンジニアリングから始めるLangChain入門」を後追い視聴。LangChain、大変興味深いです #StudyCo

はじめに 『かがみの孤城』円盤発売まであと3️⃣日、今日はアキちゃん! アキちゃんのパラレルワールドでは、6/25は火曜日1。nikkieです。 ChatGPTをはじめとするLLMsがトレンドですね2。 そんな状況の中で、気になっていたけれどずっと触れていないライブラ…

すごいすごい! GPTを呼び出すアプリケーションが持っている関数を、GPTがFunction callingで呼び出せるぞ! これはヤバい!

はじめに callingといえばダーク・コーリング。覇王十代! nikkieです。 OpenAIから先日発表された「Function calling」を完全に理解しました! ※エンジニアミームの「完全に理解した」ですので、近日中に何も分からなくなるやつです 目次 はじめに 目次 そ…

Apple Silicon・CPUでOpenCALM(3B)を動かす

はじめに 「人が幸せになるように呪う」、nikkieです。 今週公開された日本語LLMを動かしてみた際の備忘録です。 目次 はじめに 目次 サイバーエージェント発 OpenCALM 動作環境 Hugging Face Hubのサンプルコードを動かす CPUで動かすには、torch_dtype=tor…

Andrew Ng先生とIsa Fulfordさんによる講座「ChatGPT Prompt Engineering for Developers」(今なら期間限定無料)をオススメするスライドを公開しました

はじめに 俺、1万PVとかもらったことないから、すごい嬉しい。ありがとう1 nikkieです。 表題が全てです! 「ChatGPT Prompt Engineering for Developers」、めっちゃよいから(無料の今のうちに)みんな見て! 目次 はじめに 目次 スライド「ChatGPT Prompt…

キャメルケースをスネークケースに変換するにはどうする? Streamlitの実装に見つけた正規表現を使う例

はじめに 無惨さま、final付けてこ! nikkieです 文字列操作の小ネタです。 Streamlitの実装を見ていたところ、興味深い実装を見つけました。 目次 はじめに 目次 キャメルケースをスネークケースに変換する実装 in Streamlit 正規表現を使って、キャメルケ…