差分プライバシーにより、どの企業もお客様についてあまり知られることなく、より多くのデータを処理できるようになりました。

あらゆる種類の社会、経済、サービスは、意思決定を行ったり単に製品を改善したりするために、大規模なデータ処理にますます依存しています。これは、デジタル世界で、そして徐々に物理世界でも私たちがアクションを実行するたびに、それがどこかに記録され、処理され、さまざまな起源の他のデータベースと交差されることを意味します。

その過程で、ユーザーのプライバシーが危機に瀕しており、それを保護するための最も優れたツールが、いわゆる「差分プライバシー」です。この定義は、必要な統計的および数学的概念を適用するため、多くの場合、機密または重大な可能性があるこのデータが特定されないことを確実な方法で信頼できますが、発生する主要な傾向を使用することができます。彼らのうち。

差分プライバシーによって提案されたデータ処理へのこのアプローチは、その起源の一部が Microsoft の研究者である Cynthia Dwork の出版物に見られますが、Google などのテクノロジー巨人によって実装されています。 5 年前、Chrome、Apple、Uber ではそう呼ばれていました。最終的な目標は、どのようなデータが実際に自分のものになるのかを評価することさえできずに、あらゆる種類のデータをさらに蓄積して処理することです。

最近、Google はこの目的で社内で使用するライブラリの一部をリリースしました。これにより、大量のデータを処理する企業や組織は、一定のプライバシーを保証しながら、すべてを最初からプログラムする必要がなく、引き続き処理を行うことができます。私たちは、Google のプライバシーおよびデータ保護部門のプロダクトマネージャーであるミゲルゲバラに話を聞きました。彼はニューロストリームにこの新しいフリーソフトウェアイニシアチブの鍵の一部を与えています。

統計に基づいた治療法

機密情報からデータベースの読み取りを保護するには、名前などの最も機密性の高い文字列をハッシュすることで、データの一部をエンコードされた文字列に置き換えるだけでは十分ではありません。これに関する明確な前例は Netflix のケースです。 2007 年に、このプラットフォームが推奨システムを改善するためにビデオオンデマンドの放送を開始したとき、アルゴリズムのパフォーマンスを少なくとも 10% 改善できた人に 100 万ドルの賞金を提供しました。

これを行うために、彼らは 50 万人のユーザーからの 1 億件の評価を含むデータベースを公開しました。その際、一部の要素はハッシュ化されており、直接識別できないようにしました。驚いたことに、このデータは、IMDb の評価と相互参照する際に部分的かつ簡単に匿名化されませんでした。その後出版物の要約で読んだ内容によると、テキサス大学の2人の研究者はすぐに両方のプラットフォームを使用したユーザーの詳細を入手し、「彼らの明らかな政治的嗜好やその他の機密情報を発見した」という。

もちろん、私たちが参加しているデータベースにはさまざまなレベルのエントリが増え、多くの場合、比較的簡単に、さらには公開された情報によって取得できるコンテキスト情報に基づいてこの匿名化が解除されるため、このリスクは増大します。。

差分プライバシーはこの穴をカバーし、「集団に関する集計統計を知ることを可能にすると同時に、非常に体系的な方法で観察者が特定のユーザーに関する情報を入手することを防ぐ」とゲバラは説明する。これは、データベースに尋ねる質問がより具体的であればあるほど、基本的により多くの統計的ノイズを回答に追加することによって行われます。物理学におけるハイゼンベルクの不確定性原理を応用したもので、データサイエンスにおける社会的命令によって適用されます。

私はハイゼンベルクです

サンプル内の被験者の非常に小さなサブセットに関する非常に具体的なデータを取得したい場合、サンプルサイズが小さくなるほどノイズが大きくなり、したがって、結果は実用レベルでますます役に立たなくなる傾向があります。「その瞬間、あなたが導入しているノイズが多すぎて、結果はゴミになってしまいます」とミゲル・ゲバラは言います。このようにして、差分プライバシースキームの下で大規模なデータベースを管理することは、アプリオリに非常に安心できるものになります。

いずれの場合も、特定のプロジェクトで差分プライバシーを使用しても、そのプロジェクトに登場する個人の特定の情報が保護されるわけではありません。少なくともそれ自体ではありません。これを適用する方法はいくつかありますが、いわゆるグローバルモデルです。「コントローラーができることは、データベースとその情報にアクセスしているユーザーの間にレイヤーを配置することです。そのレイヤーでは差分プライバシーが使用されます。それが私たちのものです」 Google のプロダクトマネージャーによると、この技術は「非常に柔軟である」と主張しています。

プライバシーは Apple が提供する最大の贅沢になった

このアプローチにより、企業は差分プライバシーモデルに取り組み、データ監視者の立場から始めて、作業するデータの制御を常に維持することができます。ミゲル・ゲバラ氏は、「これにより、データ管理者は、そのデータを共有する際にどのようなリスクを負いたいかについて、非常に合理的な決定を下す可能性が得られる」とコメントしている。

ゲバラは、最近の研究によれば、「機械学習の文脈では、正義とプライバシーを持つことはできない」と述べています。「ペルーの山中にあるケチュア語のグループが、同じく Google の予測キーボードを使用したいと考えていると想像してください。これらのデータベースに関する特定の種類の情報が必要ですが、差分プライバシーを使用してデータベースをトレーニングすると、非常に少数の集団には役に立たないモデルが作成されてしまいます。

そして、同氏は「この議論はごく最近のものである」が、それでもこの技術はすでに各環境のニーズに合わせて調整することを可能にしており、「差分プライバシーのパラメータにより、必要に応じてグループの存在または不在を保護することができる」と断言する。例としては、「想像できるあらゆる種類の少数派」です。その中でも、「イスラム教徒があまりいない国のイスラム教徒」など、民族的なものは特に脆弱です。

オープンで協力的な取り組み

Mountain View の巨人は TensorFlow を使用して、データサイエンスで最も使用されているライブラリのセットの 1 つをすでに提供しています。プライバシーと暗号化の分野でも。この新しい貢献により、Google は再び大きな採用を期待している。「この分野の書店、特に現在出版しているような大規模な書店は非常に少なく」、「当社のサービスでも内部的に使用している」とゲバラ氏は言う。。「このライブラリの開発には長い時間がかかり、十分な堅牢性が得られるまでに約 2 年かかりました。私の希望は、そのような種類のリソースがない、または時間がない組織がこのライブラリを使用して、ユーザーのプライバシーを損なうことなく、データからより多くの価値を引き出します。」

また、これは一方的なプロセスではなく、コミュニティとの相互的なプロセスでもあり、コミュニティからさまざまなレベルで一定のフィードバックを受け取ることを期待しており、それによって製品のプライバシーを強化することも可能になります。「私たちは暗号分野から多くのインスピレーションを得ています。『暗号』では、暗号アルゴリズムが安全であることを証明するために、人々がそれをコミュニティに公開し、コミュニティがそれを攻撃し始め、暗号アルゴリズムが存在するかどうかを発見します。欠陥があるかどうか。」「組織、市民社会、政府、研究者から提供されることを願っています。このライブラリの第 1 段階は、ソフトウェアスキルを持つ人々、またはデータサイエンティストに非常に重点を置いています。どのような種類のフィードバックも歓迎します。」

この技術のおかげで、実装のたびに車輪の再発明をすることなく、わずか数年の存続期間でプロジェクトに関与する人々のプライバシーを保護するプロジェクトを開発できます。これは、Apple や Uber のような巨大企業には余裕がありますが、他の中小企業には余裕がないかもしれません。

Google では、このタイプのライブラリが、大量のデータを処理するあらゆる種類のプロジェクトで検討されることを望んでいます。その規模に関してミゲル氏は、「100 人を超える個人のデータを管理する企業や組織は、このライブラリから恩恵を受けることができる」と述べています。「社会科学者や経済学者」、あるいはおそらくは「敏感な性質の消費パターン」を検出することもできます。」。

企業で生じる可能性のある議論は、より少ない量のデータにアクセスするために特別な努力をするべきか、それともより粒度の低い方法でアクセスするべきかということです。倫理的であると同時に予防的なインセンティブが十分なのかとの質問に対し、ゲバラは「私たちも皆さんが現在抱いているのと同じ疑問を内部で抱いていた」と主張した。「人々は、差分プライバシーの結果、それほど正確ではないデータを使用することに慣れていることがわかりました。今日のデータの理解方法の視点が変化しているため、プロセスが遅くなる可能性があります。それには、私たちがデータであるということを受け入れる必要があります。「結果には多少のノイズが含まれ、一部は完全に抑制されますが、データベース内の母集団の大きな傾向は完全に存在し、統計的な厳密性は依然として存在することを覚えておくことが重要です。」

企業によるデータ収集の増加を考慮し、ユーザーの目における認識の変化の可能性について尋ねられた後、Google の責任者は、データ暗号化で経験した状況との類似点を描きました。「30 年前、暗号化という概念はほとんどの人にとって非常に馴染みのないものでした。今もそうだと思いますが、私たちはコミュニティとして、人々が多かれ少なかれ安心感を持てる直感的な理解のレベルに到達しました。」彼らは自分たちの情報が暗号化されていることを知っており、差分プライバシーでも同様のことが起こり、人々がそれがどのように機能するかについての直感を持ち始め、その直感によって自分のデータがどのように使用されているかについてのセキュリティが強化されることを願っています。」

参考資料一覧

https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf
https://security.googleblog.com/2019/06/helping-organizations-do-more-without-collecting-more-data.html
https://www.netflixprize.com/
https://arxiv.org/pdf/cs/0610105.pdf
https://machinelearning.apple.com/2017/12/06/learning-with-privacy-at-scale.html
https://www.blog.google/technology/ai/ai-principles/
https://developers.googleblog.com/2019/09/enabling-developers-and-organizations.html
https://medium.com/uber-security-privacy/Difference-privacy-open-source-7892c82c42b6
https://medium.com/tensorflow/introducing-tensorflow-privacy-learning-with-fferential-privacy-for-training-data-b143c5e801b6
https://www.schneier.com/blog/archives/2007/12/anonymity_and_t_2.html
https://security.googleblog.com/2014/10/learning-statistics-with-privacy-aided.html

差分プライバシーにより、どの企業もお客様についてあまり知られることなく、より多くのデータを処理できるようになりました。

統計に基づいた治療法

オープンで協力的な取り組み