仕事で使えるAIリテラシー

「グーグルの猫」にみる大量データの重要性 AI開発には質への理解も不可欠

高田朋貴
高田朋貴

 私たちは「犬」と「猫」を自然に見分けることができます。しかし、「どこで見分けている?」と聞かれたら、意外と答えるのが難しいものです。つまり、私たちは無意識に「犬」と「猫」を見分けているわけですが、これを機械にやらせようとすると、「犬と猫の違い」を具体的に列挙してプログラミングする必要がありました。

 とはいえ、「犬」も「猫」も顔のパーツの位置は似ていますし、どちらも四足歩行。見た目の特徴として挙げられる要素がけっこう近いので、機械にその特徴をインプットするのが難しかったのです。

 この問題を解決したのがディープラーニングです。Googleは「猫」の特徴を列挙してAIにプログラミングするのではなく、YouTubeのビデオの中から無作為に画像を取り出し、それをひたらすらAIに学習させ続けました(余談ですが、ディープラーニングはAIの種類ではなく、このような学習方法を実現した手法のことです)。その数、なんと1000万枚。

 すると、AIは1000万枚の画像をパターン分析するうちに、画像の中の特徴を自らつかみ、それをパターン別に分類(グループ分け)することができるようになりました。要するに、認知を獲得したわけです。

 あとはAIが分類したグループに対して、「猫」という名前を与えてあげればいい。そうすることでGoogleのAIは「猫」を見分けることができるようになったのでした。

 さて、このエピソードの肝は、AIが認知を獲得する過程には、1000万枚もの画像データが必要だったという点にあります。しかも、これは「1000万枚あればいい」ということでもありません。

 「猫」を認識させたい。たったそれだけのことでも、学習させるべき画像のパターンは無限にありえます。正面を向いた猫、椅子の上にいる猫、猫の後ろ姿、ほかの動物に似ている猫…。学習に十分なデータ量は誰にもわかりません。だから、「AI開発には“大量”のデータが必要です」という言い方になります。

 もちろん、Googleほどのデータ量がなくても、AIを作ることはできます。ただ、「データが多ければ多いほど網羅できるパターンの数が増えるので、分析の精度も上がる」というわけです。大量のデータを日々扱っているGoogleが、AI開発のリーディングカンパニーとなったのも、ここに理由があります。

 とにかく大量のデータがあればいい、わけじゃない

 加えて、私たちが日々直面しているAI開発の現場に即して言えば、データは“量“だけでなく“質”も重要です。

 例えば、ある企業が「AIを作りたい」と相談にいらっしゃり、「うちには大量のデータがあるから、これをAIに分析してもらうことで、業務の効率化や売り上げの向上を図りたい」とご依頼いただきます。

 しかし、データがたくさんあれば、ビジネスに役立つAIが作れるわけではありません。どういうことか?

 例えば、小売店がAIを活用したいとします。その目的は、顧客の動向をデータから分析することで、売り上げを向上させることです。

Recommend

Biz Plus

Ranking

アクセスランキング