AI は世界中で何十万人もの研究者を駆り立てており、機械学習や深層学習などの分野の応用分野はますます増えています。これらのコンピューター モデルは、原則として、膨大な量のデータに基づいて予測を行います。でも、いつもこんな感じなのでしょうか?
MITは人工知能に関する大学の創設に数十億ドルを投資する
理論は比較的単純です。ニューラル ネットワークに何万、何十万もの画像をそのカテゴリとともに表示すると、ニューラル ネットワークは、表示された残りの画像を、ニューラル ネットワークが抽出したパターンに基づいて分類することを学習します。最初のもの。
たとえば、 乳がん検出の場合、約 40,000 件のマンモグラムがトレーニングに使用され、さらに 10,000 件が検証に使用されています。しかし、希少疾患に直面したらどうなるでしょうか?ほんの一握りのデータしかない場合はどうなるでしょうか?
この機械学習システムは、乳がんの最大の危険因子の 1 つを検出します
小規模データ: データが少ない場合でも予測の余地はまだあります
よく訓練されたネットワークは、その分野の専門家よりも優れたパフォーマンスを発揮できますが、訓練が不十分なネットワークでは、避けたい偽物が発生します。そこで「スモールデータ」が登場します。これは、より正確な結果を得るために利用可能な少数のデータの適切かつ最先端の処理に基づいています。
ディープラーニングは、ビッグデータ/数百万の画像で非常に優れています。しかし、小規模データも重要です。 Landing AI では、100 枚の画像で良好な結果が得られる多くのエキサイティングなアプリケーションを目にしています。より多くの研究者がスモールデータに取り組むことを願っています — ML にはさらなるイノベーションが必要です。
— アンドリュー・ン (@AndrewYNg) 2018年9月27日
これは、次のようなさまざまなケースに当てはまります。
- 工場内での不良部品の検出。
- 絶滅危惧種の標本の認定。
- 高エネルギー実験におけるヒッグス粒子などの粒子の検出。
結局のところ、治療対象の症例により正確に適合する統計モデルを使用することが重要です。コールド スプリング ハーバー研究所の研究者ジャスティン キニー氏は、たとえば彼の粒子物理モデル (DEFT) がデータ量の少ない他のケースにどのように適用できるかを説明しています。
Kinney のチームは、投薬中の患者を対象とした臨床試験の予測にこのモデルをどのように適用したかをPhysical Review Lettersで発表しています。これらの研究の目的は、可能な限り最小限のデータ量とリスクで予測を取得することです。
参考資料一覧
- https://www.cshl.edu/the-big-problem-of-small-data-a-new-approach/
- https://twitter.com/AndrewYNg/status/1045399898537873408?ref_src=twsrc%5Etfw
