OpenAI Spring Update「Introducing GPT-4o」をアーカイブ視聴。音声解禁、リアルタイムで会話する数々のデモに震撼しました

はじめに

ららーららーららー♪ nikkieです。

OpenAIのアップデート、これは失職したかもしれません（半年ぶり、たぶん通算3回目）

前回の失職（DevDay）

OpenAI Spring Update「Introducing GPT-4o」

こちらの30分に満たない動画を見て、私としてはゼロリセットがかかったように感じました。

印象的だったトピックは2つ

デスクトップアプリ
GPT-4o

GPT-4Vまででテキストと視覚のマルチモーダルが扱えていました（英語以外の言語に関しては発展途上の印象）。
今回リリースされたGPT-4o、oはomniらしく、3つ目のモーダル、音声（audio）が解禁されています。
https://openai.com/index/hello-gpt-4o/

音声解禁によって可能になった数々のデモ！

リアルタイム会話（スマホアプリ） 9:25
- 人間が呼吸するということを分かっている！？！？
GPT-4oのいろいろな声色（抑揚に富む！） 11:45
- 歌うよ！！
スマホアプリで、数学の家庭教師（手書きの数式を認識し、解く手助けをしてくれる） 14:00
デスクトップアプリで、一緒にコーディング 18:20
- グラフを認識しているんですが！！
リアルタイム翻訳（＝ほんやくこんにゃく、です！） 22:15
スマホのカメラの動画から、スピーカーの感情認識 23:27

感想

一次情報を知っておくのが一番振り回されないのではないかという考え（DevDay同様）で30分捻出して見ています

デスクトップアプリが、やばい！
https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

アプリはmacOS限定のようです（リリースが待たれる）。
このアプリとも会話できますし、スクリーンショットを撮って同じものを見られるんですよね（コードやグラフを見せていた）

これ、ふだんPCを触るときに一緒にやったらめちゃめちゃ捗りそうなんですよ！
これが当たり前になった環境で、自分がコードを書いたり作業したりする意味って一体なんなんだろう

そして、音声解禁、もう人じゃん。
歌うし、表情から感情を認識するし、もう『アイの歌声を聴かせて』のシオンさんじゃん¹。

これまではチャットだけでしたが、話しかけられるというのは大きく変わってきそうです（しかも人に話しかけているよう）。
文字が打てないシーンでもGPT-4oは使えるということですし、この上にアプリケーションを乗せるような世界になる！？（function callingとか）

そのうえ非連続に賢いとか、いったいなにをどうやったんだ...

it is a very good model (we had a little fun with the name while testing) pic.twitter.com/xKIwhKyRGt
— Sam Altman (@sama) 2024年5月13日

観測した声

あとで見返す用に貼っておきます

https://t.co/fsQI3ssDAo

余計な情報は含めていないので、二次情報、三次情報を読む前にこれ見て終わりで良いです😎
— ぬこぬこ (@schroneko) 2024年5月13日

GPT-4oの発表内容について、ばらばらのツイートに書き殴って情報が散乱しちゃってたので、Zennにまとめておきました😇https://t.co/phv5qabOSw
— ML_Bear (@MLBear2) 2024年5月13日

今回のGPT-4oの発表、自分の1か月前の予想が正解だった部分と、想定の斜め上に来たなぁという部分があるので整理したい。

まず、馬力を積んでモデルを大きく賢くする方向性ではなく、「モデルはもっと小さくても良いから速度を重視するフェーズに入った」というトレンド・シフトは予想通り。…
— Kenn Ejima (@kenn) 2024年5月14日

GPT-4oのリアクション、恐らく下記の視点で見るかどうかで全然評価が違うと思う。

・プロダクション開発でLLM導入に取り組んだことがあるか
・LLM起点の対話AI開発(いわゆる人の置き換え)に取り組んだことがあるか
・マルチモーダルAIの将来的(とはいえ1,2年スパン)な用途と可能性を想像できるか…
— Hirosato Gamo | AI Cloud Solution Architect (@hiro_gamo) 2024年5月14日

GPT-4o、LLM関係の論文やOSS、オープンモデルの知見を最大限に活用しつつ、現時点で持てる計算資源を全力投入してGPT-4を鍛え直したらこうなりました的な感じがするなぁ。
それこそ、量子化とかモデルマージとか、普通に使われてるだろうな…。…
— mutaguchi (@mutaguchi) 2024年5月13日

終わりに

GPT-4o、やばいものが解き放たれました。
DevDayと比べると発表された機能数は少ないかもしれませんが、音声サポートによりリアルタイムで会話するデモが衝撃的でした。
Advanced Code Analysisなど既存機能に音声が掛け合わさっていきます！（おもちゃ箱🙌）
GPT-4oが当たり前になる世界で、どんなアプリケーションを作っていくんだろうか...

そして、非連続的な性能向上！
私の目からはGPT-4(V)、Claude 3、Gemini 1.5が張り合っていると見えていましたが、GPT-4oは大きく差をつけてきたように思われます。
そして、プロプライエタリではないモデル（Llama 3やphi-3やその後継）は、GPT-4oの水準まで追いつけるんだろうか...

直近書いた ↩

nikkie-ftnextの日記

イベントレポートや読書メモを発信

OpenAI Spring Update「Introducing GPT-4o」をアーカイブ視聴。音声解禁、リアルタイムで会話する数々のデモに震撼しました

はじめに

目次

OpenAI Spring Update「Introducing GPT-4o」

感想

観測した声

終わりに