Appleは、人工知能機能を搭載してデビューする次期iPhoneオペレーティングシステム「iOS 18」の正式発表に向けて詳細を詰めている。これらの機能の 1 つでは、AI の助けを借りて音声メモをテキストに書き写すことができます。文字起こしと要約機能は、ほぼすべての Apple アプリケーションに搭載される予定です。
AppleInsiderのレポートでは、Voice Memos アプリが人工知能を利用した文字起こし機能をデビューさせる予定であると述べています。この機能を使用すると、音声録音を非常に正確にテキストに変換できます。情報筋によると、AI文字起こしはiPhoneに限定されるものではなく、iPadOSやmacOSにも搭載される予定だという。
音声からテキストへの変換ツールは新しいものではありませんが、人工知能の登場により速度と精度が向上しました。 OpenAI は、680,000 時間の多言語データに基づいてトレーニングされた自動音声認識システムである Whisper と呼ばれるニューラル ネットワークを備えています。 Google は、数百万時間の音声データと数十億のテキスト文を使用してトレーニングされた音声の Google Cloud 基盤モデルである Chirp を開発しました。
Apple は AI 競争で取り残されたくないため、オペレーティング システムの多機能化を推進します。文字起こしの場合、情報筋によると、ボイスノートには浮いている泡の形のボタンがあり、押すと録音がテキストに変換されるという。この機能は、頻繁にボイスメモを録音する学生、ジャーナリスト、その他の専門家にとって非常に重要です。
AI が生成した概要が iPhone にも届きます
開発中のもう 1 つの機能は、人工知能によって生成される概要に関係しています。リークは、Notes、Safari、iMessage などの複数の Apple アプリケーションとサービスをカバーする広範な展開を示しています。
AppleInsiderによると、 Notes にはオーディオ スニペットを個々のノートに挿入する新機能が追加されています。 Apple は、差別化要因ではあるものの、メモに画像と音声を追加することで、自社のアプリケーションを一種の OneNote に変えたいと考えています。 Notes はAI を利用して、すべてのメモのインテリジェントな要約を作成します。
同様の機能が、スマート ブラウジングモード経由でSafari 18に追加されます。この機能は、アクセスした Web サイトのテキスト概要を生成できますが、クラウドに接続する必要がなく、デバイス上で直接実行されるという特徴があります。
概要は、ChatGPT、Gemini、およびその他の AI を利用したアプリケーションの重要なコンポーネントです。 Microsoft や Google などの企業は、通常、「生産性が向上します」などのフレーズを伴います。真実は、すべてが仕事に関係しているわけではなく、Notes や Safari でのその機能がその最良の例です。
広告や専門用語を閲覧して時間を無駄にしないように、Web サイトを要約したいと想像してください。または、ボイスノートに録音した授業を文字起こしし、それを要約して重要な断片を抽出します。
次回の WWDC 2024 中に発表されるiOS 18 とその他の Apple オペレーティング システムでは、これらすべてとそれ以上の機能が見られるでしょう。
参考資料一覧
- https://appleinsider.com/articles/24/05/10/apple-set-to-deliver-ai-assistant-for-transcribing-summarizing-meetings-and-lectures
- https://appleinsider.com/articles/24/04/17/apple-notes-in-ios-18-looks-to-up-the-ante-with-microsoft-onenote
- https://cloud.google.com/speech-to-text
