「グーグルの猫」にみる大量データの重要性　AI開発には質への理解も不可欠

高田朋貴 2020/6/5 07:00

　AI（人工知能）の開発サービスを提供しております、株式会社SIGNATE（シグネイト）の高田朋貴と申します。AIを開発・運用するために必要な人材の条件や、AIを適切に活用していくためにビジネスパーソンが身につけるべきリテラシーについて紹介していく本連載。第3回は、AI開発に必要不可欠な「データ」の重要性についてお話させていただきます。

犬と猫を正確に見分けることはAI進化の課題だった（Getty Images)

　「猫」を見分けられるAIの誕生は革命だった

　最近のAIブームは「第3次」と言われています。AIは1960年代に第1次、1980年代に第2次ブームが到来しました。

　「人工知能」という言葉が初めて登場したとされる1956年から、技術的なブレークスルーがあるたびにAIはブームを迎えてきたわけですが、コンピューターの処理能力が不十分だったり、複雑な計算を効率的に行うための理論的な裏付けが足りなかったりしたことから、どちらのブームも長続きしませんでした。

　しかし、今回の第3次AIブームは過去よりも長く続いています。しかも年を追うごとに盛り上がりは増すばかりです。

　その背景にあるのが、ディープラーニングに代表される革新的な技術の誕生と、大量のデータ（ビッグデータ）の利活用が容易になってきたことです。

　今や「AIの開発には膨大な量のデータの収集が必要」という認識は、多くの人に共有されるようになってきました。一方、「では、なぜAI開発に大量のデータが欠かせないのか？」という質問に、ちゃんと答えられる人は少ないように感じます。

　そもそも、AIはなぜ大量のデータを必要とするのでしょうか。これはひとえに、第3次AIブームを支える「機械学習」という技術が大きく関わっています。

　機械学習をざっくり説明すると、大量のデータを分析することで、AI自身が知識を獲得していくための仕組みと言えます。大量のデータの中に見つかる“パターン”をAIが自ら学んでいくことで、その学習結果を元に予測や分類を行うことができるようになるのです。その中で、今もっとも注目されている手法が、ディープラーニングです。

　ディープラーニングの革新性を有名にした「Google（グーグル）の猫」という研究成果があります。これはGoogleが、2012年に「AIが猫の写っている画像を見分けられるようになった」と発表し、大きな話題となったことを指しています。

　一般の人からすれば、「AIが猫を見分けられるからって、それのどこがすごいの？」と思うかもしれません。しかし、これはAIの進化にとって非常に大きなブレークスルーだったのです。

　機械が自らデータのパターンを学び、分類する

　機械学習の特徴は、AIが大量のデータから“パターン”を見つけることにあります。画像認識であれば、大量の画像から共通した要素（特徴）をコンピューターが自ら抽出して、分類し、その結果を元に「これは犬」「これは猫」などと判断していきます。

　実は、「機械が『犬』と『猫』を正確に見分けられるのか？」というのは、AI研究において長年の課題でした。

　私たちは「犬」と「猫」を自然に見分けることができます。しかし、「どこで見分けている？」と聞かれたら、意外と答えるのが難しいものです。つまり、私たちは無意識に「犬」と「猫」を見分けているわけですが、これを機械にやらせようとすると、「犬と猫の違い」を具体的に列挙してプログラミングする必要がありました。

　とはいえ、「犬」も「猫」も顔のパーツの位置は似ていますし、どちらも四足歩行。見た目の特徴として挙げられる要素がけっこう近いので、機械にその特徴をインプットするのが難しかったのです。

　この問題を解決したのがディープラーニングです。Googleは「猫」の特徴を列挙してAIにプログラミングするのではなく、YouTubeのビデオの中から無作為に画像を取り出し、それをひたらすらAIに学習させ続けました（余談ですが、ディープラーニングはAIの種類ではなく、このような学習方法を実現した手法のことです）。その数、なんと1000万枚。

　すると、AIは1000万枚の画像をパターン分析するうちに、画像の中の特徴を自らつかみ、それをパターン別に分類（グループ分け）することができるようになりました。要するに、認知を獲得したわけです。

　あとはAIが分類したグループに対して、「猫」という名前を与えてあげればいい。そうすることでGoogleのAIは「猫」を見分けることができるようになったのでした。

　さて、このエピソードの肝は、AIが認知を獲得する過程には、1000万枚もの画像データが必要だったという点にあります。しかも、これは「1000万枚あればいい」ということでもありません。

　「猫」を認識させたい。たったそれだけのことでも、学習させるべき画像のパターンは無限にありえます。正面を向いた猫、椅子の上にいる猫、猫の後ろ姿、ほかの動物に似ている猫…。学習に十分なデータ量は誰にもわかりません。だから、「AI開発には“大量”のデータが必要です」という言い方になります。

　もちろん、Googleほどのデータ量がなくても、AIを作ることはできます。ただ、「データが多ければ多いほど網羅できるパターンの数が増えるので、分析の精度も上がる」というわけです。大量のデータを日々扱っているGoogleが、AI開発のリーディングカンパニーとなったのも、ここに理由があります。

　とにかく大量のデータがあればいい、わけじゃない

　加えて、私たちが日々直面しているAI開発の現場に即して言えば、データは“量“だけでなく“質”も重要です。

　例えば、ある企業が「AIを作りたい」と相談にいらっしゃり、「うちには大量のデータがあるから、これをAIに分析してもらうことで、業務の効率化や売り上げの向上を図りたい」とご依頼いただきます。

　しかし、データがたくさんあれば、ビジネスに役立つAIが作れるわけではありません。どういうことか？

　例えば、小売店がAIを活用したいとします。その目的は、顧客の動向をデータから分析することで、売り上げを向上させることです。

　このときやりがちなのは、「顧客の動向を分析するために必要なデータとは何か？」を深く考えずに、店内のあちこちにカメラを設置して、お客さんの行動を観察することです。いろんな角度からお客さんの動き方を撮影したデータを収集しておけば、AIが人間では気が付かないような購買行動の傾向を見出してくれるかもしれない。そういう期待があります。

　しかし、AIにお客さんの動向を分析させたいなら、「お客さんがどの商品とどの商品で迷い、最終的にどの商品を購入したか」という一連の様子が撮影されていなければなりません。

　AとBというチョコレートがあり、Aの売り上げのほうが高いとします。このとき、お客さんはAとBで迷いながら選んでいるのか、真っ先にAを選んでいるのか、Bを一度は手に取ったけど、パッケージを見てからAを選び直しているのか。さらに、その購買行動には世代や性別による違いは見られるのか。

　そういった重要なポイントがデータとして取得できていなければ、AIが顧客の動向を精度高く分析することはできません。単に店内を撮影しておけばOKというわけではないのです。

　第3次AIブームをしぼませてしまわないために

　だから、「うちには大量のデータがあるから、これを使ってAIで何かできませんか？」と言われても、AI開発者は困ってしまいます。「AIで何がしたいのか」と「それを実現するための適切なデータが揃っているか」。この両輪が用意されていなければ、AI開発はうまくいきません。

　とは言え、AI開発に慣れていない方にとって、その両方を初めから設定することは困難です。ですので、まずは「AIでしたいこと」を具体的に考え、「それを実現するために、どんなデータが必要だろうか」という仮説を立てて、AIベンダーにご相談いただくと、スムーズにAI開発の検討を深めていくことができます。

　AIベンダーはそういった「依頼時の基礎知識」を世の中に対してもっと発信していく必要があります。また、開発を依頼する企業も自ら積極的に情報収集しAI開発を正しく理解することで、お互いのすれ違いの広がりを防ぐことができます。AIは、業務の効率化や売上の向上など、大きな可能性を秘めています。それを社会全体で上手に活用していくためにも、そういった発注者・受注者間のすれ違いの広がり、ひいては第3次AIブームの衰退を食い止めることができるのです。

　大事なことなので繰り返します。

　AI開発には大量のデータが必要ですが、「データがあれば必ずAIが作れる」わけではありません。「自分たちがAIを使ってやりたいことに適したデータ」がないと、その企業のビジネスにとって役に立つAIは作れないのです。

　言い換えれば、AIも人間と一緒で、成績を上げるためには、単にひたすら勉強させてもダメで、どの学校に受かりたいのか、そのためにはどの教科でどの程度の点数を取らなければならないのかを定め、その目標を達成するために適した「質の高い教材を適量」与えてあげなければならないのです。

　第3次AIブームを一過性のブームに終わらせず、日本企業の競争力向上につなげていくためにも、今回の「データ」に関する話は、ぜひ覚えておいてほしいと思います。

高田朋貴（たかだ・ともき） 株式会社SIGNATE シニアデータサイエンティスト

明治大学大学院理工学研究科博士後期課程修了。専門はコンピュータサイエンス（言語処理、人工知能等）。2015年、株式会社オプトホールディングのAI研究開発部門「データサイエンスラボ」に入社。同部署にて、主にAI開発のためのコンサルティング／受託分析や分析コンペティション設計、データサイエンス講座講師等に従事。18年4月、データサイエンスラボの事業統合を機にSIGNATEに参画。19年4月より現職。博士（理学）。

【仕事で使えるAIリテラシー】は、AI開発、AI人材の育成・採用を手がけるSIGNATEのデータサイエンティスト・高田朋貴さんが、ビジネスパーソンとしてAIを正しく理解し、活用する方法を解説します。アーカイブはこちら

「グーグルの猫」にみる大量データの重要性　AI開発には質への理解も不可欠

関連キーワード

関連記事

なぜAI導入が失敗するのか？　悪徳ベンダーに騙されるケースも

「機械が仕事を奪う」は誤解　AIブームを正しく理解しよう

「デジタル課税」計画　大手IT企業擁する米国とEUなどの“せめぎ合い”に

ゲームの知見をAI開発に活用　広がる異業種連携、社会課題の解決に期待

認知症の予兆をAI検知　会話内容、表情を点数化…全国各地で研究進む

「グーグルの猫」にみる大量データの重要性 AI開発には質への理解も不可欠

関連キーワード

なぜAI導入が失敗するのか？ 悪徳ベンダーに騙されるケースも

「機械が仕事を奪う」は誤解 AIブームを正しく理解しよう

「デジタル課税」計画 大手IT企業擁する米国とEUなどの“せめぎ合い”に

ゲームの知見をAI開発に活用 広がる異業種連携、社会課題の解決に期待

認知症の予兆をAI検知 会話内容、表情を点数化…全国各地で研究進む

「グーグルの猫」にみる大量データの重要性　AI開発には質への理解も不可欠

なぜAI導入が失敗するのか？　悪徳ベンダーに騙されるケースも

「機械が仕事を奪う」は誤解　AIブームを正しく理解しよう

「デジタル課税」計画　大手IT企業擁する米国とEUなどの“せめぎ合い”に

ゲームの知見をAI開発に活用　広がる異業種連携、社会課題の解決に期待

認知症の予兆をAI検知　会話内容、表情を点数化…全国各地で研究進む