はじめに
七尾百合子さん、お誕生日 80日目 おめでとうございます! nikkieです。
いつもとはやや趣向を変えて、手元の情報の整理にこの記事を使います
目次
気になる、ModernBERT
私は2024年末くらいからModernBERTという語をたびたび目にするようになりました。
直近だとこちらです
気になりはするものの、OpenAI・Google・Anthropic 3社のLLMの情報を追うのを優先していてなかなか素振りできずにいました。
今回素振りの機会を得たのですが、そこで調べたこと(Gemini deep research利用)+これまで蓄積した積ん読を一度書き出します。
ModernBERT論文
伝え聞いた話から、「GPTなどdecoderモデルの発展で得られた知見を適用したBERT」というのが現時点の認識です。
2020年前後はBERT(encoderモデル)が脚光を浴びていました2が、ChatGPT登場(2022年末)からはGPT(decoderモデル)に注目がシフトしていったんですよね。
その中でBERTが取り上げられたのが、私にはノスタルジックでした。
一次情報リンク集
ModernBERTを扱った記事
LLMで合成データ(synthetic dataset)を作り、それを使ってModernBERTを分類器にファインチューニングして課題を解くという手法が登場しているようです。
言いすぎかもしれませんが、新しいパラダイムのように私は感じています。
transformersで動かす
transformersでは2025年1月のv4.48.0でサポートされています。
https://pypi.org/project/transformers/4.48.0/
終わりに
「ModernBERT、なんだか気になる」と溜め込んだリンクを書き出してみて、私がなんで気になっているかは掴めました。
- decoderモデルの発展で得られた知見をencoderモデルに適用(まるで長期連載作品の熱い伏線回収)
- LLMで合成データを作り、modernBERTをファインチューニングという新たな解き方(わくわく)
セーブポイントはこの記事で用意したので、次はいよいよ素振りです