仕事で使えるAIリテラシー

AIの「教師あり」「教師なし」って何? 機械学習の仕組みから説明する (2/3ページ)

高田朋貴
高田朋貴

 また、「教師あり学習」は予測も得意です。例えば、おでんの売上予測をするとします。その際、正解ラベルはおでんの日々の売上データです。それに対して、売り上げを左右していそうな要因(天気、気温、周辺イベントの集客状況など)を学習データとして入れていきます。

 「気温が20℃で晴れ。近隣で集客1000人の音楽イベントが開催された日」というデータに、「売り上げが10万円」というラベルを与えたものが「教師データ」です。それを2、3年分集めていけば、「売り上げが高い日/低い日」の傾向が見えてきます。そして、過去の傾向が見えてくれば、将来の予測もできるようになるというわけです。

 ビジネスの現場では、分析の過程や結果をきちんと検証できることが重要視されます。そのため、現状でのビジネスの現場におけるAI活用においては、目的に沿った結果を出力してくれる「教師あり学習」が主流となっています。

 反対に「教師なし学習」は「どんな結果になるかわからない」ところに大きな可能性があるのですが、まさにそこがビジネスで採用しづらい理由にもなっているのです。

 売上予測のAIに必要なデータとは?

 AIのビジネス利用を考える際、「教師あり学習」が基本になるので、企業は「学習データ」と「正解ラベル」の2つのデータを用意する必要があります。ただ、ここでみなさんにお伝えしたいのは、「学習データ」を用意することが、実は大変だということです。

 先ほどの「おでんの売上予測」に戻って考えてみましょう。

 どんな企業でも、日々の売り上げデータは持っていると思います。しかし、売り上げに影響を与えている(と考えられる)データまで所有している企業は、決して多くはないと思います。そもそも、商品の売り上げにはいろんな要因が影響するので、何を集めれば十分かという正解もありません。

 気温や天気、周辺イベントの集客だけでなく、メディアで「おでん特集」があったとか、近隣のライバル店の動向とか、数え上げればきりがないでしょう。そのため、私たちがAI開発に取り組む際は、クライアントに「おそらく売り上げに影響を与えているのではないか、と考えられるデータはすべて出してください」とお願いしています。

 「これは売り上げに関係ある/ないデータ」という判断は、実際にAIを作って分析してみないとわかりません。だから、「考えられるものすべて」という言い方になるのです。

 もちろん、分析をするうえで必要なデータをクライアントが持っていないケースもあります。売り上げデータはあっても、その影響因子となり得るデータは持っていない場合なら、「一緒に集めていきましょう」と相談することができます。

 いちばん困ってしまうのが、売り上げデータが正しく管理されていない場合です。

 AI導入の検討でデータの重要性に気付く

 実際にあった案件では、売り上げデータをいただいたものの、ある時期だけ明らかに数字が高すぎたことがありました。社内で確認していただくと、「勘定のやり方を間違っていた」との回答でした。

 「間違いに気がついてよかった」ということにはなりましたが、もしこれをスルーしてAIに読み込ませた場合、AIは受け取った教師データをすべて「真」であるとして学習するので、せっかくAIを作っても役に立たないものになってしまいます。

 あるいは、数字の間違いはないものの、学習対象の期間内で、データの取得条件が変わっていたケースもありました。これから分析したいデータと同じ条件で取得したデータを入力しないと、AIの精度が下がる原因になります。

Recommend

Ranking

アクセスランキング

Biz Plus