Windows PCでOpenAI Whisperを使用する方法

OpenAIWhisperは、Windows 11/10 デバイスの音声をテキストに変換します。このプログラムはOpenAIによって開発中であるため、その機能の中心にあるのは人工知能であることは明らかです。そして、ChatGPTが参考になるなら、Whisperを支える AI 技術は最高水準であると信頼できます。

さらに、Whisperは音声からテキストに変換したいが資金が少ない人にとって最適であると言わざるを得ません。その理由は、AIを搭載したアプリケーションは無料でダウンロードして使用できるからです。

Whisperの欠点にはどのようなものがありますか?

インストールは、ほとんどのユーザーが好まない部分です。それは、単純ではないからです。通常よりも長いプロセスが必要であり、初心者にとっては問題になる可能性があります。

さらに、AMD GPUはサポートされていません。その理由は、これらのGPUはCUDAをサポートしていないためです。CUDAはNVIDIAによって作成されたツールであり、並列コンピューティングプラットフォームとプログラミングモデルとみなされています。

現時点では、CUDAはNVIDIA GPUのみをサポートしており、AMDの視点から最も近い代替品はRadeon Compute PlatformとOpenCLです。将来的にはOpenAIがそのようなプラットフォームをサポートすると思われるので、今は待つ必要があります。

それでも、CUDAは他のものと比較してより成熟していることを指摘する必要があります。そのため、OpenAIが当面OpenCLとRadeon Compute Platformを放棄することを決めた主な理由はそれかもしれません。

Windows 11/10でOpenAIのWhisperをダウンロードしてインストールする方法

コンピューターにWhisperをインストールして使用するには、PowerShellを使用し、Pythonなどの主要ツールをインストールする必要があります。手順は以下のとおりです。

  1. Pythonをダウンロードしてインストールする
  2. PIPをダウンロードしてインストールする
  3. Chocolateyをダウンロードしてインストールする
  4. FFMPEGをダウンロードしてインストールする
  5. Whisperをダウンロードしてインストールする
  6. Whisperを使用して音声をテキストに変換する

1] Pythonをダウンロードしてインストールする

まだ行っていない場合は、Pythonの公式Webサイトにアクセスしてアプリケーションをダウンロードしてインストールしてください。

Pythonにはユーザーインターフェースがないため、すべてコマンドラインで行うことに注意してください。

2] PIPをダウンロードしてインストールする

ここで重要なのは、Python 2.7.9以降を使用している場合、PIPはデフォルトでインストールされているということです。これは、PIPはPythonインストーラーに組み込まれているためです。古いバージョンは永遠にサポートされないため、最新のリリースをダウンロードすることをお勧めします。

3] Chocolateyをダウンロードしてインストールする

最後に、Chocolateyパッケージをコンピューターにダウンロードする必要があります。

これを行うには、コンピューターでPowerShell管理者として開きます。

Get-ExecutionPolicyが制限されていないことを確認する必要があります。そのため、次のコマンドを実行してEnterキーを押します。

Get-ExecutionPolicy

制限されている場合は、次を実行してください:

Set-ExecutionPolicy AllSigned

または

Set-ExecutionPolicy Bypass -Scope Process

すべてが計画通りに進めば、次のメッセージが表示されます:

コマンドを実行するために貼り付けた直後にEnterキーを押してください。実行ポリシーは、信頼できないスクリプトから保護するのに役立ちます。実行ポリシーを変更すると、https:/go.microsoft.com/fwlink/?LinkID=135170にある実行ポリシーのヘルプトピックで説明されているセキュリティリスクにさらされる可能性があります。

Yと入力して「はい」とし、Enterキーをクリックして変更を確定します。

これで、次のコマンドをPowerShellに貼り付けて、いつものようにEnterキーを押します:

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))

Chocolateyがコンピューターにインストールされるまで辛抱強く待ちます。

4] FFMPEGをダウンロードしてインストールする

次のステップは、FFMPEGをダウンロードしてインストールすることです。これは、Chocolateyがインストールされている場合にのみ実行できます。また、インストールはPowerShellツールを介して行う必要があります。

次のコマンドをPowerShellにコピーして貼り付け、Enterを選択します:

choco install ffmpeg

次のコマンドを使用して、FFMPEGのPythonバージョンもインストールする必要があります:

pip3 install python-ffmpeg

5] Whisperをダウンロードしてインストールする

最後に、次のコマンドを使用してWhisperをコンピューターにインストールします:

pip3 install git+https://github.com/openai/whisper.git

これで、すべてが正しい方向に進んでいるはずなので、自分を褒めてください。

6] Whisperを使用して音声をテキストに変換する

すべてがインストールされて使用できるようになったら、いよいよ書き起こしの時間です。GUIがないため、コマンドプロンプトだけが頼りになります。

始める前に、オーディオファイルを録音するか、コンピューターに保存されているオーディオファイルを用意する必要があります。

たとえば、TWCThingsというフォルダーにTWCAudio.mp3というオーディオファイルがあるとしましょう。

最初にやることは、このコマンドを使用してディレクトリを変更することです:

cd C:\TWCThings

次のコマンドでWhisperツールをファイルで実行します:

whisper --model base --language gr --task translate TWCAudio.mp3

はい、このオープンソースの音声認識アプリケーションの実行をサポートするクラウドプラットフォームまたはパーソナルコンピューターでWhisperをローカルに実行できます。

Whisper AI はオフラインで使用できますか?

Whisper AI ツールはオフラインの使用をサポートしていますが、強力で高速なコンピューターで最もよく機能します。弱いコンピューターでは、ファイルの書き起こしに長い時間がかかり、すべてはオーディオ録音の長さに依存します。