OpenAI は、 YouTube ビデオから人工知能モデルをトレーニングしたでしょう。報告書によると、同社はYouTube ビデオの音声を文字に起こすツールを開発したとのことです。このテキストは、OpenAI が GPT-4 およびその他の言語モデルで使用するデータセットにフィードする役割を果たします。

The New York Timesによると、OpenAI は Whisper と呼ばれる音声認識ツールを設計および実装し、これを使用して100 万時間以上の YouTube ビデオを書き起こしました。報告書では、同社の社長であるグレッグ・ブロックマン氏が、同社の最も先進的な人工知能モデルの1つであるGPT-4をトレーニングするためにビデオを収集したであろうと言及している。

YouTube ビデオを文字に起こすというアイデアは、トレーニング データ セットを強化するための OpenAI の戦略の一部でした。情報筋によると、サム・アルトマン氏とその会社は、2021年以来供給が枯渇したため、GPT-4を開発するためのデータを切望していた。数名の従業員が、巨大なデータベースを持つ企業を買収するか、ビデオやオーディオブックを書き写すことなどの代替案について議論した。

これらの会話の結果、ビデオやポッドキャストを文字に起こすことができる音声認識ツール Whisperが誕生しました。 「私たちは、インターネット上の大量の音声転写を予測するためだけに訓練された音声処理システムの機能を研究しています」とホワイトペーパーには記載されています。 「私たちは、最近の大規模な音声認識研究の主流となっている自己監視や自己訓練技術を必要とせずに結果を達成しました。」

OpenAIの社長であるグレッグ・ブロックマン氏や同社の共同創設者であるイリヤ・サツケヴァー氏などの名前がウィスパー文書に登場している。後者は、2023年末のサム・アルトマン解任につながった反乱の立案者だった。

 OpenAI だけでなく、Google は YouTube 動画で AI をトレーニングしました

OpenAI だけでなく、Google は YouTube 動画で AI をトレーニングしました

YouTube

OpenAI は道徳的な羅針盤を持っていることで目立ったことはありませんが、ビデオをトレーニング データに転写することは同社に特有のことではありませんでした。

NYTの報道によると、OpenAIの従業員らはWhisperがどのようにYouTubeの利用規約に違反するのかを話し合い、それでも前進したという。おそらく最も驚くべきことは、一部の Google 従業員がこれらの慣行を認識していながら、それを阻止しなかったことです。なぜなら、このテクノロジー企業は自社の人工知能モデルをトレーニングするために同様のことを行っていたからです。

GPT-4 やその他の言語モデルをトレーニングするために YouTube ビデオを書き写すことは、パンドラの箱を開けてしまいます。このデータを作成者の承認なしにトレーニングの基礎として使用することの合法性を疑問視する人もいます。しかし、知的財産権を専門とする弁護士は新聞に対し、トランスクリプトの使用に関する規則は曖昧だと語った。

Googleの広報担当者は、同社はOpenAIの慣行を認識しておらず、コンテンツの閲覧やダウンロードを禁止していると述べた。数か月前、同社はこの行為を防ぐためにサービス条件を変更した。同時に、マウンテンビューの人々は法の抜け穴を利用して、ジェミニのトレーニングに使用できるデータをドキュメントやマップから抽出します。

OpenAI と同様に、Google やその他の企業は、言語モデル用のデータセットを育成しようとしています。これは、大手テクノロジー企業が彼らの作品を大規模に盗んでいると信じているアーティスト、作家、デザイナーからの批判を引き起こしました。訴訟が始まってからそれほど時間は経っていないため、 YouTuberがAIに対する抗議運動に参加する可能性もある。

参考資料一覧

  1. https://cdn.openai.com/papers/whisper.pdf
  2. https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

OpenAI は GPT-4 をトレーニングするために盗まれた YouTube 動画を使用しました・関連動画

https://www.youtube.com/watch?v=tqvw7Sf2OSA&pp=ygVwIE9wZW5BSSDjga8gR1BULTQg44KS44OI44Os44O844OL44Oz44Kw44GZ44KL44Gf44KB44Gr55uX44G-44KM44GfIFlvdVR1YmUg5YuV55S744KS5L2_55So44GX44G-44GX44GfJmhsPXtsYW5nfQ%3D%3D