Whisper は OpenAI の新しい人工知能で、翻訳機と音声テキスト変換技術に革命を起こすことを計画しています。 ArsTechnicaによると、この AI はインタビュー、ポッドキャスト、会話などを文字に起こし、翻訳することができます。しかし何よりも素晴らしいのは、その能力がほぼ人間のレベルにあることです。

OpenAI によると、その人工知能は 680,000 時間以上の音声でトレーニングされています。しかし、ウィスパーは聞くことに加えて、それらの単語を書かれたテキストと照合する必要もありました。

人工知能ニューラル ネットワークのおかげで、入力データのコンテキストを使用して、後でモデルの出力に変換できる関連性を学習できます。

 Whisper の仕組み、あらゆる音声入力を翻訳および文字起こしできる AI

Whisper の仕組み、あらゆる音声入力を翻訳および文字起こしできる AI

「入力音声は 30 秒のチャンクに分割されます」と OpenAI は公式投稿で説明しています。このようにして、「スペクトログラムに変換され、エンコーダに渡されます」。

しかし、それだけではありません。次に、エンコーダーは、対応するテキストを予測するようにトレーニングされます。どのように行われるのでしょうか?言語識別などの単一タスクを実行するようにモデルをガイドする特別なトークンが散在しています。次に、フレーズレベルのタイムスタンプ識別、多言語音声転写、英語翻訳などの他の変数が方程式に追加されます。

何よりも、ウィスパーの仕事はこれで終わりではありません。 OpenAI は、将来のスピーチ プロセッサやアクセシビリティ ツールの基礎として機能できるように、コードを公開することを決定しました。したがって、人工知能の改善を見る機会があります。

結果は印象的です

結果は印象的です

人工知能

前述のメディアは、この人工知能の背後にあるテクノロジーは、その結果と同じくらい素晴らしいものであると指摘しています。彼らはポッドキャストのエピソードを使用してその能力をテストしました。そのエピソードには、音声の送信に電話が使用されていた部分が含まれていたため、品質にはまだ不十分な点が多く残っていました。

それにもかかわらず、 Whisper は Python で実行中にテキストをうまく転写しました。念のために言っておきますが、このテクノロジーはリアルタイムでは機能せず、 ArsTechnicaによると、ミッドレンジの Intel プロセッサーでそれを完成させるにはかなりの時間がかかりました。最終的には、「これまでに試した AI を活用した文字起こしサービスよりもはるかに優れた」結果が得られました。

ただし、Whisper コードには小さな部分があることに注意してください。製作者によれば、悪事にも使用できる道具だという。たとえば、会話中の対話者を特定したり、監視を自動化したりすることもできます。しかし、OpenAI は、これが良い目的で使用され、開発者がより複雑な翻訳および転写ツールを作成できるようになることを望んでいます。

参考資料一覧

  1. https://cdn.openai.com/papers/whisper.pdf
  2. https://arstechnica.com/information-technology/2022/09/new-ai-model-from-openai-automatically-recognizes-speech-and-translates-to-english/

この人工知能はすでにあらゆる音声を翻訳し、文字に起こします。・関連動画