nikkie-ftnextの日記

イベントレポートや読書メモを発信

2024-01-09から1日間の記事一覧

Stability-AI/lm-evaluation-harnessをColabで動かす(cyberagent-open-calm-7bをJCommonsenseQAタスクで評価)

LLM

はじめに エミリーちゃん、お誕生日おめでとうございました!1 nikkieです。 LLMの性能評価に興味を持ち、いくつかある評価ツールの中の1つ、Stability-AI/lm-evaluation-harnessを動かしました。 日本語の1タスクで性能を求めた例であり、車輪の再実装です…