はじめに
クロちゃんです!1 nikkieです
世はまさに大LLM時代。
OpenAIのGPTにうつつを抜かしていたところ、GeminiやClaudeも登場。
Claudeを高く評価する声を見かけて気になっていましたが、このたび開発元のAnthropicの話を聞く機会がありました。
目次
勉強会の概要
JAWS-UG AI/ML支部、東京支部の合同イベント。
目黒 & YouTube Liveのハイブリッドで開催されました
オンラインは限定公開ですが、後日アーカイブ公開されるようです。
Togetterにまとめてみました。
私の一推しポイントはこちら:
Anthropic エンジニアチームがビデオ出演!
以前OpenAI DevDayで一次情報を得られた経験が大きかった2ので、今回もAnthropicの方からお話を聞けるのを楽しみにしていました。
キーノートで印象的だった点をメモに残します
安全性のAnthropic
AIの安全性に重きをおいているんだなと知りました。
言われてみると、このスタンスはOpenAIやGoogleとの差別化ポイントかも
ジェイルブレイク3耐性を見て、有言実行しているという印象を受けました。
棒グラフはジェイルブレイクの成功率で低いほうが良いです。
Claude 2で0%、3でさらに改善しているとのこと
責任あるAIとして、Claudeのjailbreak耐性は群を抜いている。
— piqcy (@icoxfog417) 2024年4月22日
#jawsug_aiml pic.twitter.com/zCfKzgb7Sw
Anthropic の背景に関心が沸いた方は創業者の Daniela & Dario さんのインタビューもぜひ読んでいただければとhttps://t.co/VYKMBno6BW
— piqcy (@icoxfog417) 2024年4月22日
サマリはこちらですhttps://t.co/IwXes7RPP5 https://t.co/TsddZK3diu
Claude 3はどうして3つもモデルがあるの?
利用者に選択肢を提供してくれているという理解です。
Anthropicの立場として、one size fits all(どんなユースケースにも対応できる万能のモデル)は存在しないとのこと。
コストとインテリジェンス(性能)の2軸でトレードオフがあります。
https://www.anthropic.com/news/claude-3-family より画像
Haiku/Sonnet/Opusと3つあるのは、トレードオフを考慮して利用者が選択するためなんだと気づきました。
タスクごとにコスト(料金や処理時間)と性能の要求は異なりますもんね!
印象的だった例がこちら
数千のスキャンされたドキュメントデータ(画像)をHaikuで構造化しています。
大量データを捌くという観点でHaikuが選ばれているんでしょうね。
Haikuは2秒で1冊分読める速さとも紹介されており、納得の選択です(上のグラフで賢さがめちゃ落ちているわけでもないですし)。
恥を忍んで告白すると、最高性能のOpusで常に殴ればいいと考えていました...
高くなると思いますが、 Opus はコストがその分かかるので使いどころを選ぶ必要があると思います。デモのように、雑多な帳票画像がたくさんあるようなケースは Haiku 、設計図など1点物の画像の詳しい解析は Opus というような使い分けになるんじゃないかと思います。 https://t.co/RagGYSolIZ
— piqcy (@icoxfog417) 2024年4月22日
その他印象的だった点
Claude 3はマルチモーダル(視覚も持つ)のデモでびっくりしたのがこちら。
エディタで2つのファイルをside-by-sideで開いたスクリーンショットと「ユニットテストを書いて」で、テストコードが出力されたんです!
Copilotのようにコードを見ているならまだしも、画像4からいけるのはすごすぎる!
画像に載ってるコードからユニットテストを生成しちゃうの?!
— 星野ぽぽぽ𝕏 (@hoshino_popopo_) 2024年4月22日
#jawsug_aiml
手書きのホワイトボードも認識!
構造化してくれるとのこと
Anthropicの人のClaude 3の宣伝セッション聞いてる。
— ML_Bear (@MLBear2) 2024年4月22日
使ってなかったから意識してなかったけど、Claude 3の画像認識結構賢くて良いらしい。例えばHaikuに画像のようなホワイトボード読ませると完璧に文字に起こすだけじゃなく、構造化して回答できたとのこと。まぁまぁ便利そうやん…!#jawsug_aiml pic.twitter.com/dC2eBVWL62
あとはClaude 3のモデル間のエージェントですね。
こんなことできるの!?
こっちはClaudeにさまざまなツールを持たせてエージェントとして動かしてるデモ。
— ML_Bear (@MLBear2) 2024年4月22日
ClaudeにWEB BrowsingツールやPythonコード実行ツールを持たせて、CNNのサイトから取得したデータの可視化させてる。ClaudeにWEB Browsingモードが誕生するのも時間の問題かな?#jawsug_aiml pic.twitter.com/IwErfrhMxw
解釈能力が高い Opus をフロントに据えて、具体的なタスクに落とした後 Haiku に委譲するなんて使い方が可能です!もちろん Haiku でさばいて Opus に渡す逆のケースも https://t.co/DCsW8pK974
— piqcy (@icoxfog417) 2024年4月22日
終わりに
Bedrock Claude Nightのキーノートの印象に残った点のレポートでした。
キャッチアップの手が回っていなかったClaude、今回のイベントで完全に理解した(気がする)!
- 安全性に重きをおいて開発(ジェイルブレイク成功率 0%)
- 開発者に選択肢を与える3つのモデル(トレードオフを考慮して選択)
キーノートではAnthropicのサイト内のさまざまなリソースも紹介され、(興味深いLTも目白押しで)お腹いっぱいです!
今回は貴重な機会をありがとうございました!
- https://dot.asahi.com/articles/-/14732?page=1 より。これは引用なんですが、ブログの始まり方がカオスですねw↩
- いくつか記事を書いています ↩
- 参考:ChatGPTが答えられない質問でも強引に聞き出す「ジェイルブレイク」が可能になる会話例を集めた「Jailbreak Chat」 - GIGAZINE↩
- からあげさんの記事を過去に見ていました。 画像からユニットテストという今回の例は、私にはあまりにもやばいです↩