nikkie-ftnextの日記

イベントレポートや読書メモを発信

気になる技術、ModernBERTの自分用リンク集

はじめに

七尾百合子さん、お誕生日 80日目 おめでとうございます! nikkieです。

いつもとはやや趣向を変えて、手元の情報の整理にこの記事を使います

目次

気になる、ModernBERT

私は2024年末くらいからModernBERTという語をたびたび目にするようになりました。
直近だとこちらです

気になりはするものの、OpenAI・Google・Anthropic 3社のLLMの情報を追うのを優先していてなかなか素振りできずにいました。
今回素振りの機会を得たのですが、そこで調べたこと(Gemini deep research利用)+これまで蓄積した積ん読を一度書き出します。

ModernBERT論文

論文1積ん読

伝え聞いた話から、「GPTなどdecoderモデルの発展で得られた知見を適用したBERT」というのが現時点の認識です。
2020年前後はBERT(encoderモデル)が脚光を浴びていました2が、ChatGPT登場(2022年末)からはGPT(decoderモデル)に注目がシフトしていったんですよね。
その中でBERTが取り上げられたのが、私にはノスタルジックでした。

一次情報リンク集

ModernBERTを扱った記事

LLMで合成データ(synthetic dataset)を作り、それを使ってModernBERTを分類器にファインチューニングして課題を解くという手法が登場しているようです。
言いすぎかもしれませんが、新しいパラダイムのように私は感じています。

transformersで動かす

transformersでは2025年1月のv4.48.0でサポートされています。
https://pypi.org/project/transformers/4.48.0/

huggingface.co

終わりに

「ModernBERT、なんだか気になる」と溜め込んだリンクを書き出してみて、私がなんで気になっているかは掴めました。

  • decoderモデルの発展で得られた知見をencoderモデルに適用(まるで長期連載作品の熱い伏線回収)
  • LLMで合成データを作り、modernBERTをファインチューニングという新たな解き方(わくわく)

セーブポイントはこの記事で用意したので、次はいよいよ素振りです


  1. 日本語で読める解説記事と一緒に読みたいですね
  2. BERTology(BERT学)なんて言葉も