グラム・ニュービッグ先生の #NLPコロキウムソフトウェア開発エージェント回受講ノート

はじめに

七尾百合子さん、お誕生日 18日目 おめでとうございます！ nikkieです。

今週参加した勉強会の備忘録です。

NLPコロキウムのニュービッグ先生回

グラム・ニュービッグ先生には『自然言語処理の基本と技術』でお世話になりました。

言語処理学会参加で知ってたまに（アーカイブ含めて）聞いていたNLPコロキウムに、ニュービッグ先生回！

Cursor や Cline/Devin/OpenHands でソフトウェア開発の生産性がすごいことになっているみなさんへ：
この領域に世界一詳しいプロ研究者・開発者の Graham さんから最近の潮流と研究動向を教えていただく会を、4/2(水) 10:00 JST からオンラインにて開催します。お楽しみに〜https://t.co/QZW3IBHQDU https://t.co/HtJVveBzvZ
— sho_yokoi (@sho_yokoi) 2025年3月31日

ニュービッグ先生、OpenHands（かつての呼称はOpenDevin）の開発に関わっているんですね！
今回取り上げるのはOpenHandsの論文で、著者に先生のお名前が

OpenHandsを開発しているAllHandsからも3/31(月)に2つのリリースが出ていて、私はワクワクしながら臨みました

受講ノート：ニュービッグ先生の研究をたどりながら、ソフトウェア開発エージェント研究を知る

スライドはNLPコロキウムのページで公開されています

発表を聞いて、ニュービッグ先生、OpenHandsの開発の中で論文を書かれていると知りました
https://arxiv.org/search/cs?searchtype=author&query=Neubig,+G
以下に挙げていきます

ソフトウェアエージェントの評価

ローカル環境にWebサイトクローンを立ち上げられるWebArena (slide=21)

webarena.dev

シミュレートされたソフトウェア会社で、ブラウジングとソフトウェア開発を必要とする異なる職種にわたるタスク (slide=22)

the-agent-company.com

OpenHands LMの改善

使ったSWE-Gym¹

この論文のポイントとしては以下（宿題：読もう）

棄却サンプリング
学習データ数スケーリング
報酬モデル
推論時スケーリング

その他のトピック

曖昧な指示にエージェントが質問するベンチマーク (slide=36)

エージェントが過去の「ワークフロー」を追加し、将来使用できる (slide=37)

「使えば使うほどエージェントがよくなってほしい」、刺さりました

終わりに

NLPコロキウムで、グラム・ニュービッグ先生からソフトウェア開発エージェント研究について講義を聞けました。
ニュービッグ先生、いくつもベンチマークを構築しながらOpenHandsの開発を進められているんだと知りました。

導入がToday was a Good Dayだった(slide=5)のですが、ソフトウェア開発エージェントはコーディングだけでなくソフトウェア開発全般ができるように研究が進められているのですね。
ベンチマークは内容を実際に確認して、エージェントが解いている（解こうとしている）タスクは知っておきたいです（失職に備えなきゃ）

#NLPコロキウムのページにスライド公開いただいてる！感謝

OpenHands開発されてるGraham Neubig先生が、最近の自身の論文を引きながらソフトウェア開発エージェントの流れを解説されました。
ベンチマーク用意しながら進めてるんですねhttps://t.co/uGCzeRnj6X https://t.co/EQ20kMDqTo
— nikkie(にっきー) / にっP (@ftnext) 2025年4月2日

P.S. 他の方の参加ログ

同日のWantedlyさん勉強会で取り上げられていました。
https://github.com/wantedly/machine-learning-round-table/issues/291#issuecomment-2771865672

すっげーー！！

OpenHandsすごいですねー！

先ほど開催されたNLPコロキアムのGrahamさんの講演中に質疑応答中にライブデモをされていたのに触発され、講演後に仲間と試してみましたが、OpenHands初見から論文検索ツールが20分で作れちゃいました。かかった費用は4.4ドル。https://t.co/hI4kqcotXc pic.twitter.com/wViWGpZ9EF
— Tatsuya Shirakawa (@s_tat1204) 2025年4月2日

「Specifically, we use an RL-based framework SWE-Gym and All Hands's scalable training infrastructure」ref: Introducing OpenHands LM 32B -- A Strong, Open Coding Agent Model ↩

nikkie-ftnextの日記

イベントレポートや読書メモを発信