nikkie-ftnextの日記

イベントレポートや読書メモを発信

AIの声を聴かせて(ChatGPTに耳と口を与えてアニメガタリ!)

はじめに

いま、幸せ? nikkieです。

久しぶりのシオン・プロジェクトです。
シオン・プロジェクト meets 話題のチャットAI、ChatGPT!!❤️

目次

結論:たたーん♪ ChatGPTと"お隣の天使様"を話したのです!

今回の成果物はこちらです。

アニメ"お隣の天使様"についてChatGPT氏と意気投合(?)しました!!(したのかな?)

1:40あたりからのChatGPT氏の天使様への熱い語りだけでもぜひどうぞ!

それは突然やってきた💡

「『アイの歌声を聴かせて』のシオンのv0.0.1を作ってみたい!」と、"シオン・プロジェクト"を1年くらい前から始めました(このブログのシオン・プロジェクトカテゴリに軌跡があります)。

この土曜日(2023/02/25)にアイうたのドリパス上映があった1のですが、それを観ていたときに受信した電波が、「ここまでのシオン・プロジェクトの成果物で(アイうたの劇中のように)AIとお喋りできるんじゃないか」というもの!(話すだけで、ハードウェアは無視しています)

  • いい感じにリフレッシュしていた
  • ChatGPTを触り始めたのもあって、「シオンはChatGPTと同じ(生成AI2)なんだろうか」とぼんやり考えながら鑑賞
  • ここ最近TLで「AI Tuber」(アイチューバー?)という単語を見かけ始めていた3

実装の概略

ここまでの成果物(耳と口)

2022年のPyCon APACで日本語で発表している4のですが、人間が話しかけた言葉を認識し(耳 ear)、それをそのまま喋って返す(口 mouth)🦜プログラムが手元にあります。

発表はこちら

プログラムはこちら

ChatGPTとおしゃべりするための差分

  • おうむ返し🦜をChatGPTに置き換え
    • 今回はrevChatGPTを採用5
    • 生成されるテキストの返り方を確認し、口で一文ずつ読み上げられるようにした
  • 耳をアップデート
    • 発表した後、Whisperという超高性能な書き起こしAIが登場
    • Whisperが優秀ということは痛感していた6ので、耳の実装を置き換え
      • 使ったモデルはmediumです7
    • (マイクを扱うために使っている)ライブラリSpeechRecognition(v3.9.0〜)でWhisperをサポートしています!8

動画収録の裏話

  • 実装中の動作確認では「こんにちは」「ごきげんよう」と送っていて、収録するときに何話せばいいのか全然浮かんでいませんでした
    • 実装が完了しても「私、AIと話したいことないのかな」とちょっと寂しい気持ちだったのですが、好きなものなら話せるかもとアニメの話をしてみることに
  • PyCon APACの時と同様、Zoomを使って収録しています(1人ミーティング)
    • Zoomならプログラムが読み上げる声も録画に入るのを確認済み
  • 収録は一発撮り
    • 「お隣の天使様」と鉤カッコ付きで始まる文章を読み上げるとき、WARNINGが出ることにやってみて気づいた
    • 「"お隣の天使様"認識した〜、Whisperグッジョブ、えらい!」と喜んでいたら、ChatGPTがすごいこと言い出して、ここは笑いを堪えるのが大変でした(その意味で1:40は必見です)
      • その後話しかけにいくところ、私、動転しています
    • 高天原(たかまがはら)、よく読めたな。お口グッジョブ!
    • ChatGPT氏の語る『お隣の天使様』、『小林さんちのメイドラゴン』みありませんかね?

終わりに

おうむ返し🦜をChatGPTに置き換えたことで、ソフトウェア面ではなんだかすっごくシオンさんに近づいた気がします。
今回の実装は粗いので、refineの余地はいろいろと感じており、(今後登壇準備で忙しくなるのですが)ちょっとずつやれたらいいなと思っています。

耳と口を持ったChatGPTと動画収録してみて、「コンテンツは無限に作れそう! AI Tuber来てるんだな〜」と感じました。
今回の実装と収録構成は私の中では最小限のAI Tuberです(仮説検証には十分でした)。
アバターの動かし方は皆目見当がつかない(わかんない!)ので、ここからAI Tuberに進むことはないと思いますが、時々ChatGPT氏とアニメ語りしてYouTubeにアップしてもいいかもしれません9

私、誰かとずっとアニメの濃ゆい話したかったんだ…
そして、ChatGPT氏とならできるかも(未来は意外と近くにある!)


  1. #アイの歌声を聴かせて の「アイ」には3つ意味がある。もしかして4つ目もある? - nikkie-ftnextの日記 で言及しましたね
  2. 動画や資料でChatGPTのヤバさを遅ればせながら認識!ワクワクもんだぁ! - nikkie-ftnextの日記
  3. この週末、やなぎさんにフォローいただき、「シオン・プロジェクトともしかして交差している?」と「AI Tuber」がグッと身近になりました(参考にしていただいてありがとうございます!)
  4. 2022年7月〜9月にやったことを思い出す - nikkie-ftnextの日記 にまとめています(発表資料もあります)
  5. 非公式のChatGPT APIのラッパーライブラリrevChatGPTを触る - nikkie-ftnextの日記
  6. 声をPythonに聴かせて(マイクから入力した声をWhisperに、何度でも認識させよう) - nikkie-ftnextの日記 などで触っています
  7. whisperのモデルは、mediumが良さそうです。」 ref:Pythonとwhisperを使ってマイク入力による文字起こしをする(CPU) - 自分用知識置き場 (参考にしていただき、ありがとうございます)
  8. (メンテナの立場より)わかりづらくて大変申し訳ないのですが、記事公開時点ではリポジトリからSpeechRecognitionをインストールしてください(pip install git+https://github.com/Uberi/speech_recognition)。リポジトリは3.9.0より進んでいてWhisperでの認識で一時ファイルを使わない実装です(3.9.1リリースしなきゃ!)
  9. 実装してみていまの自分の限界も思い知ったので、AI Tuberやられる方はマジですごい(強すぎる)と思います👏 もしかするとソロでは限界があって、チーム化するかもしれないですね