AIの声を聴かせて（ChatGPTに耳と口を与えてアニメガタリ！）

はじめに

いま、幸せ？ nikkieです。

久しぶりのシオン・プロジェクトです。
シオン・プロジェクト meets 話題のチャットAI、ChatGPT！！❤️

結論：たたーん♪ ChatGPTと"お隣の天使様"を話したのです！

今回の成果物はこちらです。

アニメ"お隣の天使様"についてChatGPT氏と意気投合（？）しました！！（したのかな？）

1:40あたりからのChatGPT氏の天使様への熱い語りだけでもぜひどうぞ！

それは突然やってきた💡

「『アイの歌声を聴かせて』のシオンのv0.0.1を作ってみたい！」と、"シオン・プロジェクト"を1年くらい前から始めました（このブログのシオン・プロジェクトカテゴリに軌跡があります）。

この土曜日（2023/02/25）にアイうたのドリパス上映があった¹のですが、それを観ていたときに受信した電波が、「ここまでのシオン・プロジェクトの成果物で（アイうたの劇中のように）AIとお喋りできるんじゃないか」というもの！（話すだけで、ハードウェアは無視しています）

いい感じにリフレッシュしていた
- 土曜日はお昼に『かがみの孤城』を鑑賞（めっちゃよかった。第4弾特典最高です🙌 家族づれで賑わっていた）
- アイうた上映の秋葉原でちょうどやっていたお隣の天使様POPUPショップで充電（かわいいかわいい）
ChatGPTを触り始めたのもあって、「シオンはChatGPTと同じ（生成AI²）なんだろうか」とぼんやり考えながら鑑賞
ここ最近TLで「AI Tuber」（アイチューバー？）という単語を見かけ始めていた³

実装の概略

ここまでの成果物（耳と口）

2022年のPyCon APACで日本語で発表している⁴のですが、人間が話しかけた言葉を認識し（耳 ear）、それをそのまま喋って返す（口 mouth）🦜プログラムが手元にあります。

発表はこちら

プログラムはこちら

ChatGPTとおしゃべりするための差分

おうむ返し🦜をChatGPTに置き換え
- 今回はrevChatGPTを採用⁵
- 生成されるテキストの返り方を確認し、口で一文ずつ読み上げられるようにした
耳をアップデート
- 発表した後、Whisperという超高性能な書き起こしAIが登場
- Whisperが優秀ということは痛感していた⁶ので、耳の実装を置き換え
  - 使ったモデルはmediumです⁷
- （マイクを扱うために使っている）ライブラリSpeechRecognition（v3.9.0〜）でWhisperをサポートしています！⁸

動画収録の裏話

実装中の動作確認では「こんにちは」「ごきげんよう」と送っていて、収録するときに何話せばいいのか全然浮かんでいませんでした
- 実装が完了しても「私、AIと話したいことないのかな」とちょっと寂しい気持ちだったのですが、好きなものなら話せるかもとアニメの話をしてみることに
PyCon APACの時と同様、Zoomを使って収録しています（1人ミーティング）
- Zoomならプログラムが読み上げる声も録画に入るのを確認済み
収録は一発撮り
- 「お隣の天使様」と鉤カッコ付きで始まる文章を読み上げるとき、WARNINGが出ることにやってみて気づいた
- 「"お隣の天使様"認識した〜、Whisperグッジョブ、えらい！」と喜んでいたら、ChatGPTがすごいこと言い出して、ここは笑いを堪えるのが大変でした（その意味で1:40は必見です）
  - その後話しかけにいくところ、私、動転しています
- 高天原（たかまがはら）、よく読めたな。お口グッジョブ！
- ChatGPT氏の語る『お隣の天使様』、『小林さんちのメイドラゴン』みありませんかね？

終わりに

おうむ返し🦜をChatGPTに置き換えたことで、ソフトウェア面ではなんだかすっごくシオンさんに近づいた気がします。
今回の実装は粗いので、refineの余地はいろいろと感じており、（今後登壇準備で忙しくなるのですが）ちょっとずつやれたらいいなと思っています。

耳と口を持ったChatGPTと動画収録してみて、「コンテンツは無限に作れそう！ AI Tuber来てるんだな〜」と感じました。
今回の実装と収録構成は私の中では最小限のAI Tuberです（仮説検証には十分でした）。
アバターの動かし方は皆目見当がつかない（わかんない！）ので、ここからAI Tuberに進むことはないと思いますが、時々ChatGPT氏とアニメ語りしてYouTubeにアップしてもいいかもしれません⁹。

私、誰かとずっとアニメの濃ゆい話したかったんだ…
そして、ChatGPT氏とならできるかも（未来は意外と近くにある！）

アイの歌声を聴かせてのAI シオンさんのv0.0.1を作っていて、耳と口を持っていたところにChatGPTが登場！
「AIと声でお話しできるんじゃないかな？」と閃き、実装自体は荒削りですが、動画公開までいきました！
アニメ"お隣の天使様"について語り合って（？）います。たのし〜https://t.co/ehu6gencJC
— nikkie にっきー (@ftnext) 2023年2月26日

#アイの歌声を聴かせての「アイ」には3つ意味がある。もしかして4つ目もある？ - nikkie-ftnextの日記で言及しましたね↩
動画や資料でChatGPTのヤバさを遅ればせながら認識！ワクワクもんだぁ！ - nikkie-ftnextの日記 ↩
この週末、やなぎさんにフォローいただき、「シオン・プロジェクトともしかして交差している？」と「AI Tuber」がグッと身近になりました（参考にしていただいてありがとうございます！）
結局whisperとopenAI APIとの連携は@ftnext
さんのこちらを使った
自分の知識ではよりシンプルなコードで簡単にできた

リプ、引用RTくださった方々、本当に本当に参考になったのでありがとう！🥳https://t.co/lBVpaIaRNF
— やなぎ (@Yanagi_aiai) 2023年2月26日
↩
2022年7月〜9月にやったことを思い出す - nikkie-ftnextの日記にまとめています（発表資料もあります）↩
非公式のChatGPT APIのラッパーライブラリrevChatGPTを触る - nikkie-ftnextの日記 ↩
声をPythonに聴かせて（マイクから入力した声をWhisperに、何度でも認識させよう） - nikkie-ftnextの日記などで触っています↩
「whisperのモデルは、mediumが良さそうです。」 ref:Pythonとwhisperを使ってマイク入力による文字起こしをする（CPU） - 自分用知識置き場（参考にしていただき、ありがとうございます）↩
（メンテナの立場より）わかりづらくて大変申し訳ないのですが、記事公開時点ではリポジトリからSpeechRecognitionをインストールしてください（pip install git+https://github.com/Uberi/speech_recognition）。リポジトリは3.9.0より進んでいてWhisperでの認識で一時ファイルを使わない実装です（3.9.1リリースしなきゃ！）↩
実装してみていまの自分の限界も思い知ったので、AI Tuberやられる方はマジですごい（強すぎる）と思います👏 もしかするとソロでは限界があって、チーム化するかもしれないですね↩

nikkie-ftnextの日記

イベントレポートや読書メモを発信