AI(人工知能)の開発サービスを提供しております、株式会社SIGNATEの高田朋貴と申します。AIを開発・運用するために必要な人材の条件や、AIを適切に活用していくためにビジネスパーソンが身につけるべきリテラシーについて紹介していく本連載。前回、AI開発における「データ」の重要性について説明しました。第4回はこのテーマをもう少し掘り下げ、「AI開発に必要なデータとは、どんなもの?」についてお話させていただきます。
「教師あり学習」では人間が「正解」を教える
みなさんがAI開発について調べていくと、「教師あり学習」「教師なし学習」という言葉を目にすることがあると思います。これはAI開発に使われる数々の技術の中で、現在主流の「機械学習」における学習方法の違いを説明した言葉です。
この方法の違いは何か。ざっくり言えば、「AIに学習させたいデータ」に対して、学習の見本となる「正解」を用意するかどうか、にあります。
「教師あり学習」の例としてわかりやすいのは、画像認識のAI開発でしょう。「教師あり学習」では、例えば、様々な物が写っている画像(=学習データ)それぞれに対し、「花」や「猫」、「自動車」といったその画像に写っている物が何であるかを示すラベル(=正解ラベル)をセットにしてコンピューターに読み込ませます。するとコンピューターは、次第に「花」というラベルがつく画像には色や形にこういった特徴があるぞ、とAIが学習し、ラベルがついていない画像を見たときに、「それは花である」と判定できるようになります。
この「学習データ」と「正解ラベル」のセットを「教師データ」といいます。
他の事例では、例えば、音声文字変換のAIを開発する際に、映画の音声と字幕をセットで読み込ませるといったことも行われています。この場合、「学習データ=映画の音声」「正解ラベル=映画の字幕」であり、この2つがセットになっている「字幕付き映画=教師データ」となります。
「教師あり学習」では、基本的に人間がデータに対する「正解」をコンピューターに与えます。そして、その正解を元にデータの中にある特徴や法則をコンピューターが自動的に学習し、未知のデータに対する回答や、将来のデータ予測などができるようになります。
このように、まるで学校の授業で先生から「正解」を教えてもらうように学ぶ方法なので、「教師あり学習」と呼ばれているのです。
ビジネスの現場で主流はどっち?
もう一方の「教師なし学習」では、「学習データ」はあっても、「正解ラベル」は用意されません。画像認識で言えば、コンピューターが何の画像か教えられないままに、ひたすら大量の画像を読み込むことで、勝手に各画像の特徴を認識し、例えば色や形などの共通項によってグループ化(クラスタリング)していきます。
「正解」が与えられていないメリットは何かと言うと、大量のデータの中から、人間が発見することの難しい相関関係を見つけ出せることが挙げられます。ECサイトでよく見かける商品のレコメンド(「この商品を買った人はこちらも購入しています」というあれです)には、まさに「教師なし学習」が活用されており、意外性のあるレコメンデーションを可能にしています。
このように「教師なし学習」は、顧客データのように日々ビジネスをしていたらどんどん溜まっていくデータを分析するのに向いています。ただ、コンピューターがどのようなグループで分類するのかコントロールできないため、分析結果が実務上では役に立たないこともあり得ます。
その点、「教師あり学習」はコンピューターに分析させたい目的が決まっている際に有効です。有名なところでは、迷惑メールのフィルタリングです。たくさんのユーザーが日々迷惑メールを迷惑メールフォルダに入れるーつまり、メールという学習データに対して、「こういう内容は迷惑メール」と正解ラベルを付与することで、分類の精度を上げる仕組みになっています。
また、「教師あり学習」は予測も得意です。例えば、おでんの売上予測をするとします。その際、正解ラベルはおでんの日々の売上データです。それに対して、売り上げを左右していそうな要因(天気、気温、周辺イベントの集客状況など)を学習データとして入れていきます。
「気温が20℃で晴れ。近隣で集客1000人の音楽イベントが開催された日」というデータに、「売り上げが10万円」というラベルを与えたものが「教師データ」です。それを2、3年分集めていけば、「売り上げが高い日/低い日」の傾向が見えてきます。そして、過去の傾向が見えてくれば、将来の予測もできるようになるというわけです。
ビジネスの現場では、分析の過程や結果をきちんと検証できることが重要視されます。そのため、現状でのビジネスの現場におけるAI活用においては、目的に沿った結果を出力してくれる「教師あり学習」が主流となっています。
反対に「教師なし学習」は「どんな結果になるかわからない」ところに大きな可能性があるのですが、まさにそこがビジネスで採用しづらい理由にもなっているのです。
売上予測のAIに必要なデータとは?
AIのビジネス利用を考える際、「教師あり学習」が基本になるので、企業は「学習データ」と「正解ラベル」の2つのデータを用意する必要があります。ただ、ここでみなさんにお伝えしたいのは、「学習データ」を用意することが、実は大変だということです。
先ほどの「おでんの売上予測」に戻って考えてみましょう。
どんな企業でも、日々の売り上げデータは持っていると思います。しかし、売り上げに影響を与えている(と考えられる)データまで所有している企業は、決して多くはないと思います。そもそも、商品の売り上げにはいろんな要因が影響するので、何を集めれば十分かという正解もありません。
気温や天気、周辺イベントの集客だけでなく、メディアで「おでん特集」があったとか、近隣のライバル店の動向とか、数え上げればきりがないでしょう。そのため、私たちがAI開発に取り組む際は、クライアントに「おそらく売り上げに影響を与えているのではないか、と考えられるデータはすべて出してください」とお願いしています。
「これは売り上げに関係ある/ないデータ」という判断は、実際にAIを作って分析してみないとわかりません。だから、「考えられるものすべて」という言い方になるのです。
もちろん、分析をするうえで必要なデータをクライアントが持っていないケースもあります。売り上げデータはあっても、その影響因子となり得るデータは持っていない場合なら、「一緒に集めていきましょう」と相談することができます。
いちばん困ってしまうのが、売り上げデータが正しく管理されていない場合です。
AI導入の検討でデータの重要性に気付く
実際にあった案件では、売り上げデータをいただいたものの、ある時期だけ明らかに数字が高すぎたことがありました。社内で確認していただくと、「勘定のやり方を間違っていた」との回答でした。
「間違いに気がついてよかった」ということにはなりましたが、もしこれをスルーしてAIに読み込ませた場合、AIは受け取った教師データをすべて「真」であるとして学習するので、せっかくAIを作っても役に立たないものになってしまいます。
あるいは、数字の間違いはないものの、学習対象の期間内で、データの取得条件が変わっていたケースもありました。これから分析したいデータと同じ条件で取得したデータを入力しないと、AIの精度が下がる原因になります。
このようにAI開発において、教師データの質は非常に重要です。しかし残念ながら、データの収集、管理に十分なリソースを配分している日本企業は、決して多くはありません。つまり、AIをちゃんと活用するためには、企業そのものがデジタルシフトしていることが前提になります。
もちろん、最初からすべての条件がそろっている企業なんてほとんどありません。AmazonやGoogleのように、設立当初からデータドリブン型の組織であるほうが珍しいでしょう。
では、どうすればいいのか? 一歩一歩、段階的にデジタルシフトを進めていけばいいのです。私はAI導入を検討することは、日本企業がデータドリブン型の組織に生まれ変わるための、いいきっかけになると思っています。
AIは万能ではなく、ビジネス上の問題を解決する手段の1つにすぎません。しかし、AIを導入しようとすれば、必然的にデータの収集、管理の重要性に気付かされます。
まずは今あるデータでAI開発にトライしてみる。すると、これだけのデータでは精度の高いAIが作れないとわかる。そこからどういうデータを集めればいいのか考え、組織の基盤をデジタルシフトに向かって強化していく。
その結果、「うちの会社に必要なのは、AIとは別のデジタルツールだった」とわかっても、それはそれでいいのです。しかし、データを整理してみないと、「本当に何が必要なのか?」「何が足りないのか?」は見えてきません。
AI導入に着手することで得られるメリットは、「AIが何をしてくれるかわかる」だけでなく、デジタルシフトを進めていくうえでの課題に、自分ごととして気付けるところにもあるのです。
【仕事で使えるAIリテラシー】は、AI開発、AI人材の育成・採用を手がけるSIGNATEのデータサイエンティスト・高田朋貴さんが、ビジネスパーソンとしてAIを正しく理解し、活用する方法を解説します。アーカイブはこちら