今年がコンピュテーショナル フォトグラフィーが野心的に本格化する年であることは、現時点では非常に明らかであり、 Pixel 3はその明確な例です。私たちは、 「Night Sight」が極度に暗い環境でどのように驚異的な画像を生成するか、あるいは手の振動を使用して収集される詳細を高めるソフトウェアによってどのようにズームが実現されるかを見てきました。
通常、開発者は 2 台のカメラを使用して被写体の位置と距離を三角測量し、被写体が遠ざかるほどぼやけます。これまでは、デュアル ピクセル センサーの位相検出フォーカシング (PDAF) を使用して、機械学習技術によって認識されたシーンの主要な被写体にマスクを適用し、残りの部分をぼかしていた唯一の Pixel カメラでした。
https://hipertextual.com/analisis/google-pixel-3-xl
ただし、この方法では、焦点が合っているものとそうでないものとの間の小さな視差のみが考慮されます。 Google は今回、新しい深度予測方法が Pixel 3 でどのようにトレーニングされたか、そしてより強力な機械学習技術の使用により Pixel 2 の方法とどのように異なるかを詳しく説明しています。
左側には、これらの携帯電話が生成する生の画像が表示されます。右側では、より伝統的な手法でブラーを推定した「ステレオ」バージョンと、より堅牢な機械学習モデルに基づいて動作し、アーティファクトが明らかに少なく、より自然で漸進的なブラーを備えた「学習済み」バージョンが交互に表示されます。元の解像度の画像では、これらの変化を簡単に確認できます。
機械学習による新たなレベルの複雑さ
Google の携帯電話で使用されているデュアル ピクセル タイプのピクセルの上半分と下半分で生じる画像の違いに起因するこの小さな視差に加えて、携帯電話が捕捉する少なくとも2 種類の追加情報が考慮されており、現在でも悪用されていない:
- ぼかし。これは、携帯電話のボケ効果はそれほど顕著ではありませんが、ボケ効果が存在し、距離に関する情報を提供することを考慮しています。焦点面内の要素は、所定の距離で最大の鮮明度でぼやけませんが、ぼやけている要素は、すでに持っているぼやけの量に応じてさらにぼやけます。
セマンティクス。たとえ同じように焦点が合った物体を見たとしても、人は日常の物体の大きさに基づいて、遠くにあるものとそうでないものを区別することができます。
これらの影響を正式なレベルで考慮することは非常に複雑です。 Google がこれらのトラックを統合するのは、畳み込みニューラル ネットワークの使用を通じて行われます。ただし、ニューラル ネットワークはもちろんトレーニングする必要があります。これを行うために、 Wi-Fi 経由で同時に起動する 5 台の Pixel スマートフォンを備えたシステムを使用しました。これらの画像を使用すると、ニューラル ネットワークをトレーニングするためのより正確な深度マップが作成され、そこから生成されたモデルが、5 台のカメラを必要とせずに画像に最終的なブラーを適用します。
よく見ると、これら 5 台のカメラがクロスヘッド状に配置されており、両軸からの視野角と、基準となる中央の画像が得られます。これらすべてのカメラからの情報は、対応するデュアル ピクセル分割を備えた最大解像度で、Pixel 3 の Adreno 630 GPU の TensorFlow Lite モジュールによって処理されます。
Google カメラのバージョン 6.1 以降、ポートレート モードで生成された深度マップは画像と同じファイルに保存されます。これらは、Google フォトの深度エディタを通じて探索でき、Depthy などのサードパーティ アプリを通じて処理することもできます。 Google では、これらの深度マップの複数の例と、新しいモデルによってもたらされた大幅な改善を示すギャラリーも表示しています。その一部:
参考資料一覧
- https://photos.google.com/share/AF1QipMzvQX22sGl5ESe-dN-bW7wl783MqawktwouIkw9MXoQJQLqEb5uE_A2tQjSrbzBg?key=emtnUkN1eEJfVzczdkFXOElMMzE2cDlNM3hQN2tR
- https://4.bp.blogspot.com/-206EEUoc1HE/XAA0go3-uaI/AAAAAAAADlM/I4or1dTFymEeqLyc-jNM6aphFpXiyobowCLcBGA/s1600/2x1original.gif
- http:// Depthy.me/
