はじめに
やったぞ!やったぞ!やったぞ!やったぞ!やったぞ!やったぞ!やったぞ!やったぞ!やったぞ!やったぞ!やったぞ!1 nikkieです。
表題が全てです〜。
新しいバージョンのSpeechRecognitionをお楽しみください!
目次
SpeechRecognition 3.10.0
メンテナしている音声認識ツールキットライブラリです。
音声認識の各種APIやオフラインでの音声認識をサポートしています。
このたび3.10.0をリリースしました。
リリース内容の詳細は以下をどうぞ
かいつまむと
- Whisper APIをサポート!
- (APIではなくモデルの)Whisperを使った実装で、一時ファイルの代わりにインメモリストリームを使うようにリファクタリング
回収した伏線
このブログに書き散らした伏線の数々をようやくリリースできました(頑張った...)
「一時ファイルの代わりにインメモリストリームを使う」の初出は以下です。
プルリクエスト自体はマージしていたのですが、リリースに動けておらず、このブログに何度も「SpeechRecognitionの最新はPyPIでなくリポジトリです」と書きました。
ですが、ついに!リリースできました🙌
Windowsだと名前付きの一時ファイルまわりが動かないらしくIssueが挙がっていましたが、インメモリストリームに切り替えたからこれで解決してますよね?(手元にWindows機がなく未検証)
「Whisper APIのサポート」は以下をベースにしています。
リリースを重く感じてましたが、「GitHub Codespaces使えばさっくりリリースできるのでは?」と気付き試したところ、期待通りさっくりできました!(詳しくは別の機会に)
今見えているもの
openai
ライブラリにtranscribe_raw
メソッドを見つけました2。無理やりtranscribe
メソッド使っているので、こっちに切り替えたほうがよさそう- もうちょっと見ると、非同期リクエストとかあるぞ。サポートの道は長い
openai
の実装ではapi_key
引数が渡せていないことに気づき、Issueに記載済み(時間があったらプルリクしよう)- writeout.aiってなんですか!?3 Laravelアプリみたいですが興味深い
- リファクタリング、やっていくぞい(巨大な
__init__.py
)
リリースしたと思ったら、まだまだ追従できていなかった件。
世の中の変化が早すぎる、未来ずら〜(自分のペースでやっていきます)
-
モメンタムなるものの力でリリースできました!
↩このあと19:30から!
— たろう (@ngsw_taro) 2023年2月28日
やるぞ!やるぞ!やるぞ!やるぞ!やるぞ!やるぞ!やるぞ!やるぞ!やるぞ!やるぞ!やるぞ!#UBTechhttps://t.co/BgmEfjvERL pic.twitter.com/eSzl4Kqu2g - https://github.com/openai/openai-python/blob/v0.27.2/openai/api_resources/audio.py#L82↩
- 文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK - GIGAZINE↩