================================== whisperを使用した文字起こし ================================== whisper ========== * OpenAIが開発した音声認識ソフトウェア 準備 ========== * GPU ( CUDA ver., nvidia-smi ) を使う. ( pyTorchでubuntu ) * python -m pip install openai-whisper :: $ sudo apt install ffmpeg $ python -m pip install openai-whisper | コード ========== .. literalinclude:: pyt/whisper__fromSound.py :language: python | 使用例 ========== .. code-block:: bash python whisper__fromSound.py --inpFile input.wav --model small | オプション引数 -------------- .. csv-table:: :header: "引数", "値" :widths: 10, 10 "inpFile", "入力ファイル ( e.g.: .mp3 )" "outFile", "出力ファイル : default = inpFileの拡張子次第" "model", "モデルサイズ: tiny, base, small, medium, large" "bitrate", "ビットレート ( default. 64k )" "work_dir", "一時ディレクトリ場所" "logFile", "ログファイル名 ( default. whisper.log )" .. csv-table:: **title** :header: "", "", "" :widths: 10, 15, 30 "", "", ""