話し方からその人の外見をどれだけ推測できますか?これは、マサチューセッツ工科大学 (MIT) の研究者グループが、音声だけで人の最も特徴的な身体的特徴をアルゴリズムで生成できるようにすることを目的としたプロジェクトを開始したときの疑問でした。その結果、彼らは Speech2Face を作成しました。この AI は、人間の声で数秒間オーディオを再生するだけで、人間の顔に非常によく似た仮想の顔を作成することができます。
具体的には、Speech2Face は、人間の一部の物理的要素を声だけで認識できるニューラル ネットワーク システムに基づいています。その中には、人種、年齢、性別などがあります。これを行うために、AI は YouTube 動画に登場する何千人もの人々の声と顔の間に存在する相関関係を学習するトレーニング プロセスを経ました。
このようにして、アルゴリズムは、画像を必要とせずに顔を作成できるようにする多数の参照を持つことができます。
その結果、実際の人の顔に非常に似た仮想の顔が作成されます。ただし、合成顔を実際の顔の写真と比較する人工知能で取得できるもののように、100% 正確ではありません。実際、MIT の研究者らが論文で詳しく述べているように、目的は人の顔を再現する画像を作成することではなく、むしろ音声と「相関する特徴的な身体的特徴」を復元する画像を生成することです。
AI によって生成された一部の顔は、実際の顔よりもさらに信頼性が高くなります
音声を聞くだけで人のアバターを作成できるSpeech2Faceと呼ばれるAIとは異なり、 人間でも区別できないほど本物の人物に似た顔を生成できる機械学習システムがあります。実際、ジャーナルPNASに掲載された研究では、本物の顔を仮想の顔と区別できるかどうかを確認することを目的とした研究に参加した人の大多数が、人工知能によって生成された顔の方が本物の顔よりも信頼できると感じたことが示されています。
これらのタイプの仮想顔は、2 つのニューラル ネットワークで構成されるシステムを使用して作成されます。 1 つ目は、ピクセルのマトリックスからアバターを生成する役割を果たします。一方、2 つ目は、AI によって作成された顔と本物の顔を比較することに専念しています。相違点が見つかった場合は、最初のシステムにペナルティが与えられ、同じ間違いを繰り返さないようにします。このようにして、画像が本物と非常に似たものになるまで。
これらの学習システムは、日常的に適用できれば重要な利点があります。たとえば、音声から顔を作成できる AI は、犯罪者のアバターを生成するのに役立ちます。しかし、それらは重大な危険ももたらします。とりわけ、人の身元を偽装するために顔を作成することが容易であることを考慮します。
参考資料一覧
- https://www.pnas.org/content/119/8/e2120481119
- https://speech2face.github.io
