シリーズ「データ分析入門」第4回:データ分析にAIを活用するポイント

みなさん、こんにちは。デジタルボーイです。

最近、ChatGPTの流行などもあり、AI(人工知能)が非常に話題になっていますね。そのようなこともあり、AIによるデータ分析もとても注目されています。とは言え、実はデータ分析でAIを活用する技術は、意外と古くからあります。

今回は、データ分析にAIを活用するポイントについてみていきたいと思います。

記事を書いた人

デジタルボーイです。
データサイエンス歴20年以上のおっさんです。中小企業診断士として、データサイエンス、WEBマーケティング、SEOに関するデータ分析、コンサルティングの仕事をしています。自己紹介の詳細はコチラ

目次

デー分析にAIを活用すると何がいいの?

例えば、あなたはあるスーパーのデータ分析担当だったとしましょう。売上データを分析するシーンを思い描いてみてください。

そして、売上データを構成する切り口には店舗、販売部門、商品カテゴリ、商品サブカテゴリ、サイズなどがあるとします。

ここで、このスーパーのパワハラ社長からあなたに、次のような指令が出たとしましょう。

パワハラ社長

「最近、我が社の数店の店舗で、売上が伸び悩んでいる、データから対策を見つけ出せ!ただし、1時間後に経営会議を行うのでそれまでに結果を出すように!もし、これができなかったら、来月の給料は無しだ!」

とんでもないパワハラ社長ですね。無茶苦茶な指令ですが、このような指令が出た瞬間、あなたなら何をやりますか?

もし、時間に十分に余裕があるならば、店舗別の集計、店舗✖️販売部門のクロス集計、店舗別の販売部門✖️商品カテゴリのクロス集計・・・というように、大きな切り口の分析から小さな切り口の詳細な分析を進めながら、原因を特定していくような作業も十分にアリですね!

しかし、あなたには時間がありません。1時間後の経営会議に間に合うように資料まで作るとなると、
30分くらいで結果を出す必要があるでしょう。

一つひとつ切り口を確認しながら分析をやっているのでは、到底間に合いません。。。

そんな状況で、AIが「業績の悪い店舗と、その他の店舗の違いはこうです」と教えてくれるとしたら・・・
ぜひ、そんなAI使ってみたいですよね!

ここまで現実は単純ではありませんが、データ分析にAIを活用することで、人間では予測や分類が非常に難しい複雑なデータでも、比較的簡単に結果を出すことが可能です。

このようなことから、特にビッグデータにおいて、AIによる分析が注目されています。

データ分析で利用できるAIとは?

では、データ分析でAIを利用することで何ができるのでしょうか?主要な手法に基づいて、できることについて見ていきましょう。

未来を予測する

過去のデータから未来のデータを予測するために利用されます。

例・・・需要予測、株価の予測、不動産の価格予測、人口予測などです。

ちなみに、世間一般でAI予測について、少々誤解があるようなので、補足です。

世間一般のAI予測への誤解1:AI予測を行えば、必ず未来が予測できる

AIを使えば、未来が正確に予測できるように思われている節がありますが、全くの誤解です。データを活用せずに勘に頼るよりも、予測精度は高いでしょうが、それでもAIを活用したからといって、正確に予測が可能かと言われると、そんなことはありません。モデル構築に用いるデータや予測したいデータの規則性などに、予測精度は強く影響します。

世間一般のAI予測への誤解2:AI予測の方が伝統的な予測モデルよりも精度が高い

例えば、回帰モデル、ロジスティック回帰モデル、時系列モデル、など伝統的な統計手法による予測モデルがあります。そして、AIによる予測モデルはこれら伝統的な予測モデルを予測精度で必ず凌駕する、と思われる場合もあるようです。これも、ケースバイケースです。僕の感覚ですが、とりあえず、サクッと予測モデルを構築してそれなりの予測精度を出したいのであれば、確かにAIを使った予測モデルが最も効率が良いように思います。

しかし、例えば音声データとか、周波数データなど、物理的な時系列データなどはその分野で昔からずっと研究されている時系列モデルを使った方が、予測精度が高い場合が多いようです。また、そもそもAIモデルと伝統的な統計モデルを区別すること自体がナンセンスな気がします。予測したいという目的を達成させるための手段として予測モデルがあるのですから、手段は多い方がいいですよね。とりあえず、多くのモデルを構築し、その中から予測精度の高いモデルを選定すればいいのだと思います。ちなみに、最近のAI予測の主流としては、アンサンブルとかブースティングという手法により、複数の予測モデルを組み合わせることにより、一つのモデルよりも高い精度を出すというやり方をしばしば採用しています。

グループ間の違いの特徴を割り出す

先ほどのスーパーの例で言えば、複数の店舗には好調な店舗と不調な店舗がありました。では、好調な店舗と不調な店舗では何が違うのでしょうか?

このような観点で、複数のグループで、特にその違いが鮮明に出ているような特徴を、例えば「不調な店舗グループは店頭プロモーションが月3回以下である」といったルールとして抽出することもAIは可能です。

ただし、AIがそのようなルールを出すためには、人間があらかじめAIに読み込ませるデータに
各店舗の月平均店頭プロモーション回数がなければいけません。

何も無いところから、AIが答えを出すのではなく、
人間がそのようなデータを準備しないといけないという点は非常に重要です。

複雑なデータを分類する

例えば、数百人分の社員名簿があったとします。名簿上で各社員を「社歴で別ける」とか、「年齢で別ける」とか、1つの切り口でデータを別ける作業を依頼された場合、そんなに苦労しませんよね。特にAIを使わなくても人間の力で可能です。

しかし、それが、年齢×社歴×出身地×・・・などというように、切り口が3つ、4つ、5つ、・・・と増えていくとどうでしょう?Excelで分けようとしても関数に「if(aaa, bbb, if(ccc, ddd, if(eee,ffff・・・」と、切り口の数だけ、if文を入れ子にした関数を作る必要もあり、非常に大変です。

しかも、その切り口が、元々決められたものならいいのですが、データの状況に合わせて、色々、試しながらデータを見る必要があるなどの場合、かなり煩雑な作業になります。

このような場面で、AIを使うことで複雑なデータから、規則性やルールを見つけ出しグルーピングが可能です。
例・・・スパムメールの分類、病気や疾患の分類、文字の分類、不良品の分類等です

おすすめ商品の抽出

あなたがショップの店員だったとして、その人の好みやこれまでの購買履歴から、おすすめ商品をご案内する場合、何人くらいのお客さんなら可能でしょうか?1人や2人なら、楽勝でしょう。これが、10人、20人になってくると、ちょっと怪しいですよね。100人、200人であれば、常人にはほぼ不可能でしょう。

このようなおすすめを何万人のお客さんにも正確に案内することがAIは可能です。

例えば、Amazonで買い物をした後に、「あなたへのおすすめ商品」ということで、さまざまな商品が表示されると思います。このようなおすすめ商品の抽出をデータ分析の分野ではレコメンド(推薦)といい、AIが得意とするところです。

AIによるデータ分析の活用としては、大きくは以上のような場面で可能です。ただし、以上の手法については、AIを使わない伝統的な手法(主に統計的手法)も存在し、また、伝統的な手法がAI手法に劣っているなんてこともありません。
そのため、多くのデータ分析者は複数のモデルをデータに当てはめ、その中で最も精度の高いモデルを採用します。

データ分析で利用されるAIをざっくりとしたイメージで理解する

では、実際にデータ分析者はAIをどのように活用するのでしょうか?

データ分析の現場を全く知らない方にとっては、なかなかイメージしづらいでしょう。

実際には、データサイエンティストの多くは、AIを搭載した高額な人型ロボットを所有しています。そのロボットをデータ分析の相方として、いつもマンツーマンで仕事をしています。データ分析をする際は、ロボットの相方にデータ分析を依頼することで、その都度、回答を得ています。ロボットを酷使しすぐると、徐々に働きが悪くなります。そのような場合は、近くのホームセンターで、クレ556を買ってきて、後頭部と首筋の間あたりに適量を指すことで、働きを回復させます。

というのは全くのウソです!

実際のところ、AIを活用するといっても、通常のデータ分析の作業とほとんど変わりません。データ分析の手法にはたくさんの手法がありますが、その手法の中の一部である「機械学習(マシーンラーニング)」に対して、特にAI分析というように言われています。

AI分析に該当するこの機械学習による手法は、伝統的な統計的手法と若干理論的な枠組みが異なります。

伝統的な統計的手法・・・小数のサンプリングから、分布を仮定し、母集団を推測することに主眼を置く手法
機械学習の各種法・・・分布を仮定せずに、手元のデータを効率的に分析することに主眼を置く手法

このようなことから、データ分析の手法の中でも、手法の理論的な枠組みから、AI分析か、違う分析かが分かれてあるだけで、利用するソフトウェアが変わるわけでも、プログラミングやり方が特別異なるわけでも全く無いんですね。

そのため、繰り返しになりますが、AI分析というのはデータ分析の中でも、何か特別な分析とか、すごい分析だということは全くありません。

また、AI分析だからその分析は良くって、伝統的な手法を用いた分析は、ダメだということもありません。

この点は十分に注意する必要があります。

なぜ、最近になってAI分析が注目されているの?

先にも述べましたが、実はデータ分析でAIを活用する技術(機械学習の技術)は、意外と古くからあります。技術自体は昔からあるのですが、最近になって、特に注目されてくるようになりました。

いくつか理由はありますが、こんにちのAI分析がここまで注目されている、大きな要因は以下のようなものでしょう。

AI分析が注目されている背景

ほんの2〜30年前までは、今ほど、パソコン、インターネット、大容量ハードディスクなどのIT環境は整っていませんでした。

そのような時代、データというのは非常に高価なものでした。

例えば、 WEBサイトへのアクセスデータ、スーパーなどで利用するポイントカードデータや購買履歴データ、IoT機器などのデバイスデータ、スマホから取得できるGPSデータなど、現在ではビッグデータとして、企業は自社に蓄積されるデータを自由に分析することができます

サンプリングデータで威力を発揮した伝統的な統計的手法

しかし、20〜30年前くらい前には、IT環境が整っておらず、気軽に分析できるような環境ではありませんでした。
つまり、データを蓄積するにしても、分析や活用するにしても、バックアップを取るにしても、データとは非常にコストがかかるものだったんですね。

そのような状況では、分析するためのデータはビックデータではなく、小数のアンケートデータだったり実験データだったり、サンプリングデータが主なデータでした。

そして、このようなサンプリングデータを分析する手法が先ほどの伝統的な統計手法・推測統計的な手法でした。

サンプリングデータからビッグデータの時代

それが、PCに搭載するバードディスクやメモリの大容量化や、インターネットの通信速度の高速化や、インターネットやスマートフォンの普及による個人の行動データの収集のしやすさ・・・などIT技術の発展により、これまで扱うことのできなかったビッグデータを扱えるようになりました。ビッグデータの時代では、データとは高価なものではなくなりました。

また、分析の手法としても小数のサンプリングデータではなく、ビッグデータは全数データです。全数データでは、母集団を推測する必要がありません。なぜなら、手元のデータそのものが、母集団と考えることができるからです。

ビッグデータで威力を発揮する機械学習的手法

そのようなビッグデータ時代に必要なデータ分析の手法は、母集団を推測するための手法ではなく、手っ取り早く手元のビッグデータから傾向を分析できる効率的な手法になります。

そのような用途として、AI分析の手法である機械学習の手法は最適な手法だったのです。このような経緯から、AI分析的手法である機械学習はデータ分析の現場で、これまでになく活用されるようになりました。

ビッグデータの台頭とAI分析は切っても切れない関係であると言えるでしょう。

まとめ

以上がAIを活用したデータ分析の概要となります。AIという言葉自体は非常によく聞くワードなんですが、なかなかどうやって活用されているのか、活用のイメージが掴みづらいと思います。

今回の説明で、なんとなくでも良いので、AIの活用イメージを本記事で掴んでもらえたとしたら、幸いです。

目次