開発者はマルチモーダル人工知能を活用して、視覚障害者のためのソリューションを生成しています。これらのシステムは、テキストと画像を処理し、このデータから会話型の応答を生成する機能を備えています。このテクノロジーを使用するツールは、環境の視覚的な詳細をリアルタイムでより正確に記述することができます。その結果、この症状を持つ人々の自立性が高まります。
たとえば、 Envision は、画像上のテキストを読むことができる電話アプリとして 2018 年にリリースされました。 2021年からはGoogle Glassでも利用できるようになった。そして今年5月には、OpenAIによって作成され、有名なChatGPTを支えるモデルであるGPT-4に基づく仮想ビジュアルアシスタントであるAsk Envisionの発売を発表した。
Ask Envision は、顔、物体、色を認識し、ユーザーの周囲の情景を記述することもできます。たとえば、メニューを読んで、価格、食事制限、デザートの種類などに関する質問に答えることができます。家族や友人とのビデオ通話のオプションも含まれています。
Ask Envision を最初にテストした人の 1 人である Richard Beardsley は、Google Glass にツールを組み込んでいます。彼はWired に対し、この「ハンズフリー」オプションを持つことが彼にとって不可欠であると語った。これにより、盲導犬のリードを持ちながらテキストをスキャンすることができます。 「これがあると本当に生活が楽になります」とビアズリー氏は言う。
この人工知能の顔認識により、ユーザーは部屋に誰がいるかを知ることができます。また、60 か国語のテキストを翻訳し、100 を超える通貨の紙幣を認識できます。
視覚障害者向けのその他の人工知能アシスタント
想像することだけが選択肢ではありません。 Be My Eyes は、すでに人工知能を取り入れている視覚障害者を対象とした別のアプリケーションです。当初は、ボランティアと視覚障害のある人々を結び付け、色の認識、電気が点いているかどうかの確認、夕食の準備などの日常業務をサポートするプラットフォームとしてのみ機能していました。
Be My Eyes は最近、GPT-4 との新しい統合を導入しました。ユーザーはアプリを通じて仮想アシスタントに画像を送信できます。その開発者は、たとえば冷蔵庫の内部の写真を送信できると説明しています。人工知能はそれに応じて、何が含まれているかを特定するだけでなく、その食材を使って調理できるレシピを提案します。また、食事の準備を段階的に行うのにも役立ちます。
視覚障害のあるコンピューター科学者であり、グーグルやマイクロソフトなどの企業のアクセシビリティコンサルタントでもあるシーナ・バーラム氏は、2週間前に仲間とニューヨークの通りを歩いていたとワイアードに語った。ある時点で、他の人が立ち止まって、よく見ようとしました。 Bahram は Be My Eyes を利用し、彼の仲間がステッカーのコレクション、いくつかの漫画、その他テキスト付きのものを見ていることを知りました。これは「1年前には研究所の外には存在しなかったものだ…まったく不可能だった」と同氏は語った。
現在、Microsoft はアプリのベータ版をテストしています。 「Be My Eyes は、マイクロソフトがすべての顧客とそのニーズを包括する効果的な技術サポートを提供する方法を改善する上で重要な役割を果たしました」と、同社のインクルーシブ雇用およびアクセシビリティ担当ディレクターのニール バーネット氏は述べています。米国の全米盲人連盟もこの取り組みに協力しています。
Microsoft も今年、独自のアプリ「Seeing AI」をリリースしました。彼はそれを「あなたの周りの世界を語る」無料のツールとして紹介しました。複数の言語で利用でき、同様の視覚認識機能を提供します。
考慮すべきリスク
これらのツールに関連するリスクは、人工知能に関してこれまでに特定されているリスクと同じです。コロラド大学ボルダー校のコンピューターサイエンス准教授であるダナ・グラリ氏は、視覚障害者向けのサポートシステムがどのように情報を捏造するのかを見てきたとWiredに語った。 ChatGPT や Bard などのモデルでも同じことが報告されています。
ぐらりは、コンピューター ビジョンとパターン認識カンファレンスで「Viz Wiz」と呼ばれるワークショップを主催します。このワークショップでは、人工知能の研究者と視覚障害のあるテクノロジー ユーザーが集まります。 2018年に彼が招集したチームはわずか4チームだった。今年は50名以上が登録してくれました。
「彼らが信頼できるもののほとんどは、車、人、木など、よく認識されている物体だけです」と専門家は指摘しました。それは決して小さなことではありません。 「視覚障害者がこの情報を受け取った場合、以前のインタビューから、彼らは何もないよりも何かを好むことがわかっています。」
しかし、最大の問題は、より繊細な意思決定を行うためにこれらのツールに依存する場合です。たとえば、どの薬を服用するかです。これらの言語モデルを使用すると、視覚障害者は人工知能によって検出される民族的または性別的偏見にさらされることになります。
参考資料一覧
- https://support.letsenvision.com/hc/en-us/articles/14807926041233-Ask-Envision-Tutorial-
- https://www.microsoft.com/en-us/ai/seeing-ai
- https://es.wired.com/articulos/inteligencia-artificial-cambiara-forma-de-ver-el-mundo-a-personas-con-ceguera
- https://www.bemyeyes.com/言語/スペイン語
