nikkie-ftnextの日記

イベントレポートや読書メモを発信

グラム・ニュービッグ先生の #NLPコロキウム ソフトウェア開発エージェント回 受講ノート

はじめに

七尾百合子さん、お誕生日 18日目 おめでとうございます! nikkieです。

今週参加した勉強会の備忘録です。

目次

NLPコロキウムのニュービッグ先生回

グラム・ニュービッグ先生には『自然言語処理の基本と技術』でお世話になりました。

言語処理学会参加で知ってたまに(アーカイブ含めて)聞いていたNLPコロキウムに、ニュービッグ先生回!

ニュービッグ先生、OpenHands(かつての呼称はOpenDevin)の開発に関わっているんですね!
今回取り上げるのはOpenHandsの論文で、著者に先生のお名前が

OpenHandsを開発しているAllHandsからも3/31(月)に2つのリリースが出ていて、私はワクワクしながら臨みました

受講ノート:ニュービッグ先生の研究をたどりながら、ソフトウェア開発エージェント研究を知る

スライドはNLPコロキウムのページで公開されています

発表を聞いて、ニュービッグ先生、OpenHandsの開発の中で論文を書かれていると知りました
https://arxiv.org/search/cs?searchtype=author&query=Neubig,+G
以下に挙げていきます

ソフトウェアエージェントの評価

ローカル環境にWebサイトクローンを立ち上げられるWebArena (slide=21)

webarena.dev

シミュレートされたソフトウェア会社で、ブラウジングとソフトウェア開発を必要とする異なる職種にわたるタスク (slide=22)

the-agent-company.com

OpenHands LMの改善

使ったSWE-Gym1

この論文のポイントとしては以下(宿題:読もう)

  • 棄却サンプリング
  • 学習データ数スケーリング
  • 報酬モデル
  • 推論時スケーリング

その他のトピック

曖昧な指示にエージェントが質問するベンチマーク (slide=36)

エージェントが過去の「ワークフロー」を追加し、将来使用できる (slide=37)

「使えば使うほどエージェントがよくなってほしい」、刺さりました

終わりに

NLPコロキウムで、グラム・ニュービッグ先生からソフトウェア開発エージェント研究について講義を聞けました。
ニュービッグ先生、いくつもベンチマークを構築しながらOpenHandsの開発を進められているんだと知りました。

導入がToday was a Good Dayだった(slide=5)のですが、ソフトウェア開発エージェントはコーディングだけでなくソフトウェア開発全般ができるように研究が進められているのですね。
ベンチマークは内容を実際に確認して、エージェントが解いている(解こうとしている)タスクは知っておきたいです(失職に備えなきゃ)

P.S. 他の方の参加ログ

同日のWantedlyさん勉強会で取り上げられていました。
https://github.com/wantedly/machine-learning-round-table/issues/291#issuecomment-2771865672

すっげーー!!


  1. Specifically, we use an RL-based framework SWE-Gym and All Hands's scalable training infrastructure」ref: Introducing OpenHands LM 32B -- A Strong, Open Coding Agent Model