nikkie-ftnextの日記

イベントレポートや読書メモを発信

メンテナ記:SpeechRecognition 3.10.0をリリースしました🎉

はじめに

やったぞ!やったぞ!やったぞ!やったぞ!やったぞ!やったぞ!やったぞ!やったぞ!やったぞ!やったぞ!やったぞ!1 nikkieです。

表題が全てです〜。
新しいバージョンのSpeechRecognitionをお楽しみください!

目次

SpeechRecognition 3.10.0

メンテナしている音声認識ツールキットライブラリです。
音声認識の各種APIやオフラインでの音声認識をサポートしています。

このたび3.10.0をリリースしました。

リリース内容の詳細は以下をどうぞ

かいつまむと

回収した伏線

このブログに書き散らした伏線の数々をようやくリリースできました(頑張った...)

「一時ファイルの代わりにインメモリストリームを使う」の初出は以下です。

プルリクエスト自体はマージしていたのですが、リリースに動けておらず、このブログに何度も「SpeechRecognitionの最新はPyPIでなくリポジトリです」と書きました。
ですが、ついに!リリースできました🙌

Windowsだと名前付きの一時ファイルまわりが動かないらしくIssueが挙がっていましたが、インメモリストリームに切り替えたからこれで解決してますよね?(手元にWindows機がなく未検証)

「Whisper APIのサポート」は以下をベースにしています。

リリースを重く感じてましたが、「GitHub Codespaces使えばさっくりリリースできるのでは?」と気付き試したところ、期待通りさっくりできました!(詳しくは別の機会に)

今見えているもの

リリースしたと思ったら、まだまだ追従できていなかった件。
世の中の変化が早すぎる、未来ずら〜(自分のペースでやっていきます)


  1. モメンタムなるものの力でリリースできました!
  2. https://github.com/openai/openai-python/blob/v0.27.2/openai/api_resources/audio.py#L82
  3. 文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK - GIGAZINE