シリーズ「データ分析入門」第1回:「データ分析とは〜データ分析のやり方をつかもう」

みなさん、こんにちは。デジタルボーイです。全10回のシリーズ「データ分析入門」の第1回として、データ分析初心者やこれまでデータ分析に関わったことのない方向けに、データ分析の全体像についてざっくりと解説したいと思います。

記事を書いた人

デジタルボーイです。
データサイエンス歴20年以上のおっさんです。中小企業診断士として、データサイエンス、WEBマーケティング、SEOに関するデータ分析、コンサルティングの仕事をしています。自己紹介の詳細はコチラ

目次

そもそも、データ分析とは何か?

データ分析は、英語で言うと「data analysis」と言います。

data・・・情報や情報の塊を意味する。
anlysis・・・複雑な現象や情報を理解しやすいように分解し解明すること

ここから、データ分析は、「複雑な情報の塊を、わかりやすいように解明する行為」と考えることができます。

例えば、スーパーの店長にとって、全てのお客さんの行動を、頭の中だけで把握するには、現実は複雑すぎますね。
こんな場合、データ分析とは、次のような行為と考えることができますね。

複雑な情報の塊・・・お客さん全員の購買行動
わかりやすいように解明する行為・・・購買行動をデータ化し、わかりやすいように解明し、店舗運営に役立てる行為

僕もデータ分析を商売にしていますが、詰まるところ、頭の中だけで物事を把握できないから、データ分析をやっているんだと思います。

こんな感じで、データ分析というのは、「そのままでは複雑でわからない世の中のことがらを、わかりやすくすること」くらいに考えるといいですね!

データ分析はどうやってやる?

では、データ分析はどうやって、やるのでしょうか?

全てのやり方について網羅することはできませんが、僕がこれまで見てきたデータ分析の現状から、パターン化してみました。

パターン1:Excelなどの表計算ソフトで分析

図:Excelを使ったデータ分析例

代表的な分析方法はExcelなどの表計算ソフトでデータ分析することでしょう。
また、多くの人にとってExcelは利用経験があり、操作もわかりやすいため、使い勝手のいい方法だと思います。

とは言え、ちょっとデータ分析をやっているような人から、
「Excelでデータ分析ってwww」とバカにする人もいるかも知れません。

でも、僕は、Excelでデータ分析する人を笑う行為、は絶対におかしいと思います。
当たり前ですが、Excelで分析したからダメで、高機能なソフトウェアを使ったから良い、なんてことは絶対にありせません。
先に述べたデータの目的に添えば、どんなツールを使おうが、複雑な状況をわかりやすく解明できる分析が良い分析なのですから。そのため、データ分析初心者は、まずはExcelによるデータ分析から始めてみるのもいいと思います。

  • 長所:ほとんどの会社のPCに入っており、誰もが使い慣れている。
  • 短所:1万件を超えたデータや、複数シートで構成されたデータを操作するとストレスが溜まる
  • 初心者おすすめ度 :★★★★★
  • コメント:初心者はとりあえず、Excelを使ったデータ分析から始めてみるといいでしょう。

とりあえず、初心者はExcelから始めることをお勧めします。

パターン2:市販のデータ分析専用ソフトウェアを使って分析

代表的な市販のデータ分析専用のソフトウェアとして、SASSPSS Modelerがあげられます。

あわせて読みたい
SAS: アナリティクス、AI、データ・マネジメント SASはアナリティクスのリーディング・カンパニーです。 アナリティクス、AI、データ・マネジメントのソフトウェアおよびサービスを通じて、データにもとづく的確な意思決定...
あわせて読みたい
IBM SPSS Modeler IBM SPSS Modelerは、データの読み取りから加工、グラフによる可視化、そして、機械学習までを容易な操作で実現するノーコード・ローコードツールです。

ちなみに僕は、SASの日本法人「SAS Insutitute Japan社」でデータ分析コンサルタントの社員として
働いていたことがあります。また、IBM社や、IBMから買収される前の「SPSS社」でも、
下請けデータ分析コンサルとしてユーザーにコンサルティングをしていた経験があります。

そのようなことから、2つのソフトウェアもかなり利用していました。

僕の経験の範疇での解説ですが、この2つのソフトウェアについては、ビジネス利用や大学などの研究機関での利用を主に想定しており、価格もそれなりに高額でした。
(僕が在籍した頃で、どちらのソフトウェアも年間百万円〜が相場だったと思います)

ただし、それぞれのソフトウェアには、データ分析コンサル部隊があり、そこから分析サポートも受けられます。
もちろん、コンサル費用もバカ高いです(外資系コンサルタントと同等の単価)。

  • 長所:有償だが分析コンサルサービスが受けられる。
  • 短所:費用がバカ高い
  • 初心者おすすめ度 :★
  • コメント:個人での利用としての選択肢としては、まず考えられない。

ただし、現在、後述のオープンソースのソフトウェアの性能的な成長の結果、機能的にも遜色ないデータ分析専用のソフトウェアを無料で使える状況にあり、機能的な優位性は無いに等しいでしょう。

加えて、データ分析コンサルのサービスが受けられる点についても、(昔、ここに勤めていた僕が現在、データ分析コンサルとして独立して、商売しているように)他の独立系分析コンサル企業への依頼も可能なため、その優位性は年々減少していると言えるでしょう。

もし、あなたの勤め先が、大規模データを扱う大手企業や、大学の場合や、とにかくお金が余っていて仕方のない企業やとにかくモノ好きな企業の場合、選択肢の一つとして、一瞬くらいは考えてみても、文句は言われないと思います。

ただし、あなたの会社がよほど物好きな企業でもない場合、十分に注意してください。もし何かの弾みで、これら有料ツールの導入を上司に相談し、何かの間違いでこれら有料ツールの営業マンを会社に呼んでみて、何か時空の歪みでこれら有料ツールの営業マンから提案と見積もりを提示されたとしましょう。その後、その金額を目の当たりにしたあなたの上司があなたをおもむろにぶっ飛ばしたとしても、僕は責任を持ちません。もちろん、僕は、あなたをぶっ飛ばしたパワハラ上司をかばうつもりはありませんし、暴力を肯定する者でもありません。仮にあなたが軽率だったとしても、ぶっとばされたあなたは同情するに十分に値します。

BIツールを使って分析

図:BIツールのダッシュボード例

ダッシュボードと言われる多くのグラフや数表を一画面で確認できるツールをBIツールと言います。BIツールによって、会社にとって必要な売上や顧客からの問い合わせ件数などをモニタリングできます。無料もしくは無料版のあるツールとしてはGoogle Looker Studio, Microsoft Power BI、有料ツールとしてはSalesforce Tableauなどが挙げられます。

このBIツールは、基本的には、会社にとって重要な指標(KPI:Key Performance Index /重要指標)を視覚化・ビジュアライズ化し、スピーディーにデータをモニタリングするためのツールとしての用途が主です。

一方で、売上が下がった原因などを「なぜ?なせ?なぜ?」と、どんどんデータを深掘りしていき、原因を突き止めるための分析には不向きです。そのため、データサイエンティストのためのデータ分析ツールというよりも、経営者や管理職が会社や部署の状況をサクッとデータで確認するためのツールと言えるでしょう。実際に、データサイエンティストがBIツールをメインで分析ツールとして使っている場面を、僕はほとんど見たことがありません。

  • 長所:データの視覚化・ビジュアル化のためのツール
  • 短所:データをどんどん深掘りするためのデータサイエンスのためのツールとしては不十分
  • 初心者おすすめ度 ★★:
  • コメント:データサイエンスのための分析専用ツールとしては、使いづらい

オープンソースのソフトウェアやプログラムを使って分析

データ分析の可能なオープンソースソフトウェアの代表選手はPythonとRでしょう。

Pythonは厳密に言うと、ソフトウェアではなくプログラミング言語です。
そのため、Pythonで、WEBアプリケーションを作ったり、デスクトップアプリを作ったりも可能です。
ただし、Pythonの一番の強みは、AI開発やデータサイエンスを便利に利用するためのライブラリ
(簡単にプログラミングができるためのオプション機能のようなもの)が揃っています。

そのため、ゼロからデータ分析のプログラミングをしなくとも、ある程度パラメーターを設定するだけで、
データ分析ができ、非常に人気の高いプログラミング言語です。

Rはデータ分析や統計解析が可能なソフトウェアで、R言語と言うプログラミング言語での実行の他、
RStudioなどのGUIツール(プログラミングしなくとも、Excelのようにマウス操作で分析できるツール)
も揃っています。

よく、PythonとRのどちらがおすすめかといった質問を受けますが、データ分析の機能としては
どちらも申し分ありません。
どちらも学術レベルの研究や学会論文での分析ツールとしても利用されています。

そのため、もし、プログラミングの勉強もしてみたい
とか、データ分析だけでなくシステム開発もしてみたいといった場合はPythonがいいでしょう。

一方で、より手っ取り早く、高機能なデータ分析をしたい、とかExcelを卒業し新たに分析ツールを利用したい
、といったニーズの場合はRがいいでしょう。

ちなみに、僕は学生時代はRを使っていましたが、今はシステム開発なども行っていることもあり、
Pythonをもっぱら利用しています。

  • 長所:無料で高機能な分析機能を利用できる。
  • 短所:習得に時間がかかる。
  • 初心者おすすめ度:★★★★:
  • コメント:本格的にデータサイエンティストを目指す場合は、ぜひ、PythonかRを習得したい。ただし、習得にはすくなからず、期間と忍耐が必要。とはいえ、一度習得してしまえば、無料ツールのため、転職しても、独立開業しても、使える点は嬉しい。

専用WEBツールや専用アプリを使って分析

図:Googleアナリティクス(GA4)

例えば、自社サイトのアクセス解析を行いたい場合にはGoogleアナリティクスというWEBツールが無料で利用されます。

あるいは、株価の分析を行いたい場合には、各証券会社が無料でWEBツールやアプリを公開しています。

これらのツールは、アクセス解析や株価分析といった、特定のデータ分析に特化した非常に高機能な無料ツールです。

例えば、この機能を自分でPythonやRで実現させようとすると非常に多くの労力が必要となります。
そのため、特定の目的で利用する場合は、これらツールを使うのがベスト出あることが多いですね。

  • 長所:特定の分析に特化した非常に高機能なツール
  • 短所:特定の分析にしか使えない
  • 初心者おすすめ度:★★★★
  • コメント:Googleアナリティクスのように、特定の分析においては、そのツールを使うしかないというくらい、浸透してるものもある。ただし、カスタマイズなどは不可能な場合が多い。自分自身の視点でカスタマイズした分析がしたい場合は、Excelや分析ツールが必要となる

電卓と紙を使って分析

図:関数電卓(SHARP EL-5160T-X

パソコンが今ほど普及していなかった時代には関数電卓を使って高度な計算をしていた時代がありました。
例えば、工場では、製造する部品の直角に交わる2辺から対角線を割り出したり、大工さんが1階から2階の高さと角度から、最適な階段の段数を求めるなどです。

まあ、今となれば図面やCADが普及しており、工場の作業員や大工さんがその場で計算しなくとも、事前に設計と計算は済んでいることがほとんどでしょう。

僕の学生時代にも、多変量解析という高度な統計手法を用いた分析を、関数電卓で計算し勉強したといったエピソードを聞いたことがあります(僕は関数電卓で多変量解析を計算することはやったことありません)。

まあ、今となれば、実用性というよりも勉強のためといった利用用途がメインでしょう。

  • 長所:ソフトを使わずに計算することで、計算の中身を理解できる
  • 短所:実用性は乏しい
  • 初心者おすすめ度:
  • コメント:多変量解析や、分散分析など、ある特定の統計解析手法(推測統計など)についてしっかりと学習したい場合、使ってもいいかも。分析ツールとしては使えない。学習教材の一つとして捉えるといいかも。また、ディープラーニングなど比較的単純な計算を、繰り返したくさんすることで、実装する理論については、関数電卓よりも、Excelで実装してみる方がいいと思う

分析ツールについてはこちらにも詳しく記事を書いていますので、よかったら見てくださいね

ビジネス場面で、データ分析はなぜやるの?

コンサルとして独立して、10年近くなりますが、10年前に比べると、ビジネス場面でデータ分析をやるケースが非常に多くなっているように思えます。特に、ビジネス分野で実施されるデータ分析の目的としては、以下のようなものが多いですね。

経営戦略において:

最近、僕のところにも依頼として増えているのが、会社の戦略を立案する場合の市場動向や市場規模など数値に基づいて戦略を立案する依頼です。社長も、株主や従業員にデータに基づいて、戦略を客観的に説明しないといけない時代なんですね。

マーケティングにおいて:

これは、結構前からニーズはあります。特に最近だと、WEBマーケティング場面は、アクセス解析などのデータに基づいてWEBサイトを構築したい、というニーズや、マーケティング施策の効果があったかどうかなどをデータから検証したいといったご依頼で、データ分析を行う場面が増えています。

営業活動において:

こちらは、コロナ後に特に増えている印象です。営業施作の効果の検証、お客様からのクレームの分析、顧客購買履歴データの分析などですね。営業マンがこれまでのように足で数値を稼げなくなったため、データ分析を活用したいというニーズが増えているように思えます。

人事において:

こちらも、ここ最近増えています。特に、最近は人手不足ということで新しく従業員を雇いたくてもなかなか見つからないので、今いる従業員にもっと長く働いてもらいたいという理由から、従業員満足度調査、従業員のストレスチェックと離職防止策の立案などで、データ分析のニーズが増えています。また、筆記試験とその後の従業員のパフォーマンスの関係性の分析などは昔からニーズはありましたね。

製造現場において:

こちらは、大企業の製造業では昔からやられていましたが、中小製造業者のデータ活用のニーズは最近特に増えてきました。工場内の温度、湿度などと製品の品質の関係の分析、不良品の発生原因の分析、作業員の最適な行動の分析などの分析です。工場のIoT化など、機械設備のデータの取得が容易になっていることと、コスト削減の必要性に迫られている点などが、背景にあるように思います。

ここら辺のデータ分析については、企業によってはすでに導入しているものもあれば、導入せずに経験と勘で実施してる場合もありますね。

僕も、コンサル場面でつくづく実感するのが、コロナ禍で経済活動がガラッと変わった現在、経験と勘だけで最適な解が導き出せる保証はないことなんですよ。。。

なので、データに基づいて、対策を立て、その対策が正しかったのかどうかをデータで検証する・・・
というように、データに基づいた会社運営は今まで以上に重要になってきていることは確かだと思います。

次回は、データ分析初心者がどのようにデータ分析を進めていけばいいか、解説してみたいと思います。

目次