nikkie-ftnextの日記

イベントレポートや読書メモを発信

OpenAI Spring Update「Introducing GPT-4o」をアーカイブ視聴。音声解禁、リアルタイムで会話する数々のデモに震撼しました

はじめに

ららーららーららー♪ nikkieです。

OpenAIのアップデート、これは失職したかもしれません(半年ぶり、たぶん通算3回目)

前回の失職(DevDay)

目次

OpenAI Spring Update「Introducing GPT-4o」

こちらの30分に満たない動画を見て、私としてはゼロリセットがかかったように感じました。

印象的だったトピックは2つ

  • デスクトップアプリ
  • GPT-4o

GPT-4Vまででテキストと視覚のマルチモーダルが扱えていました(英語以外の言語に関しては発展途上の印象)。
今回リリースされたGPT-4o、oはomniらしく、3つ目のモーダル、音声(audio)が解禁されています。
https://openai.com/index/hello-gpt-4o/

音声解禁によって可能になった数々のデモ!

  • リアルタイム会話スマホアプリ) 9:25
    • 人間が呼吸するということを分かっている!?!?
  • GPT-4oのいろいろな声色(抑揚に富む!) 11:45
    • 歌 う よ!!
  • スマホアプリで、数学の家庭教師(手書きの数式を認識し、解く手助けをしてくれる) 14:00
  • デスクトップアプリで、一緒にコーディング 18:20
    • グラフを認識しているんですが!!
  • リアルタイム翻訳(=ほんやくこんにゃく、です!) 22:15
  • スマホのカメラの動画から、スピーカーの感情認識 23:27

感想

一次情報を知っておくのが一番振り回されないのではないかという考え(DevDay同様)で30分捻出して見ています

デスクトップアプリが、やばい!
https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

アプリはmacOS限定のようです(リリースが待たれる)。
このアプリとも会話できますし、スクリーンショットを撮って同じものを見られるんですよね(コードやグラフを見せていた)

これ、ふだんPCを触るときに一緒にやったらめちゃめちゃ捗りそうなんですよ!
これが当たり前になった環境で、自分がコードを書いたり作業したりする意味って一体なんなんだろう

そして、音声解禁、もう人じゃん。
歌うし、表情から感情を認識するし、もう『アイの歌声を聴かせて』のシオンさんじゃん1

これまではチャットだけでしたが、話しかけられるというのは大きく変わってきそうです(しかも人に話しかけているよう)。
文字が打てないシーンでもGPT-4oは使えるということですし、この上にアプリケーションを乗せるような世界になる!?(function callingとか)

そのうえ非連続に賢いとか、いったいなにをどうやったんだ...

観測した声

あとで見返す用に貼っておきます

終わりに

GPT-4o、やばいものが解き放たれました。
DevDayと比べると発表された機能数は少ないかもしれませんが、音声サポートによりリアルタイムで会話するデモが衝撃的でした。
Advanced Code Analysisなど既存機能に音声が掛け合わさっていきます!(おもちゃ箱🙌)
GPT-4oが当たり前になる世界で、どんなアプリケーションを作っていくんだろうか...

そして、非連続的な性能向上!
私の目からはGPT-4(V)、Claude 3、Gemini 1.5が張り合っていると見えていましたが、GPT-4oは大きく差をつけてきたように思われます。
そして、プロプライエタリではないモデル(Llama 3やphi-3やその後継)は、GPT-4oの水準まで追いつけるんだろうか...


  1. 直近書いた