みなさん、こんにちは。デジタルボーイです。今回は、データ分析を行うために必須のツールについて解説したいと思います。これからデータ分析を始めたいという方にとって、有益な情報となるよう一生懸命解説したいと思います!
デジタルボーイです。
データサイエンス歴20年以上のおっさんです。中小企業診断士として、データサイエンス、WEBマーケティング、SEOに関するデータ分析、コンサルティングの仕事をしています。自己紹介の詳細はコチラ
BIツールとデータ分析専用ツールとの違い
まずは、似たようなツールとして、BIツールとデータ分析専用ツールの違いについて解説したいと思います。というのも、世の中のネット情報には、BIツールとデータ分析専用ツールがごっちゃになって、解説されている記事がかなり多くあります。
一方で、ツールとしては両者の機能や目的はかなり異なっており、ビジネス場面で両者のツールを一緒に語ってしまうと、どえらいことになりかねません。
そのため、BIツールとデータ分析専用ツールの違いについて、まず初めにしっかりと違いを認識することが重要ですね。
BIツールとは?
BI(ビジネスインテリジェンス)ツールをイメージする場合、一番イメージしやすいのは、下図のようなデータのグラフや表が並んだダッシュボードではないでしょうか?
図:ダッシュボードの例
このようなBIツールのイメージからも分かるように、BIツールの主な目的は、ビジネス場面で数値を簡単に素早く確認するためのレポート出力やダッシュボードによるモニタリングです。
そのため、BIツールは自社の顧客データ、販売データ、在庫データと連携し、データを可視化するためのツールと言えます。
BIツールによっては高機能なツールもありますが、BIツールは基本的には企業内の蓄積されたデータを可視化するためのツールと思ってもらって、問題ないでしょう。
データ分析専用ツールとは?
実のところ、データ分析専用ツールと言うような通称はありません。僕自身は、普通にデータ分析ツールと言ってしまいたいのですが、日本国内では「分析ツール」でGoogle検索すルト、検索上位のほとんどがBIツール関連のページがヒットしてしまいます。
そのため、分析ツールとは言わずに、データ分析専用ツールと言うようにします。ちなみに、ChatGPTに聞いてみると、「データサイエンスツール」とか「統計的分析ツール」と言っています。どちらもしっくりこなかったので、データ分析専用ツールと便宜的に言っています。
データ分析専用ツールは、最新の統計手法、AI分析手法(機械学習やディープラーニングモデル)、テキストマイニングなど幅広く実施可能です。
また、複雑なデータの加工や集計も得意としています。基本的に、データ分析者やデータサイエンティストと呼ばれる人は、データ分析専用ツールを使っています。
BIツールとデータ分析専用ツールの違いは?
BIツールはデータベースに蓄積された社内データを自動的に可視化することが大きな目的で、経営者や管理者がデータを定期的にモニタリングするのに適しています。
データ分析ツールはデータサイエンティストが仮説に基づいてどんどんデータを深掘りし、分析していくことが大きな目的で、データサイエンティストそれぞれが、各自のPCで作業するためのツールと言えます。
BIツールが好ましいケース・・・
- すでに、ある程度、整形されたデータがある場合
- 既存のデータのモニタリングが主な目的の場合
- 経営者や管理者がデータを確認したい場合
データ分析専用ツールが好ましいケース・・・
- 整形されたデータがない場合
- データのモニタリングよりも、新たな知見の分析や検証が主な目的の場合
- データサイエンティストが様々な視点で分析をしたい場合
データサイエンティストを目指すなら、データ分析専用ツールを使うべき!
以上から、データサイエンティストのための分析ツールを導入したいなら、BIツールではなく、データ分析専用ツールを利用しましょう。
会社であれば、既存の社内データをグラフ化するだけでなく、予測やグルーピングや原因の特定など、仮説に基づいてどんどんデータを深掘りしながら分析する必要があるのであれば、データ分析専用ツールを導入すべきですね。
また、個人の方で、データ分析を勉強したいとか、データサイエンティストを目指したいと言う場合もデータ分析専用ツールを導入すべきですね。
と言うことで、今回のページでは、BIツールではなくデータ分析専用ツールに焦点を絞って、ツールの解説をしたいと思います!
また、今回ご紹介する5つのツールは実際に僕自身が長年、業務で使ったことのあるツールで、僕自身の経験からご紹介しています。そのため、かなり偏りのある内容となっていることは、ご了承ください。ただし、僕自身のデータ分析者として正直なところを解説しています。
それと、以降は、データ分析専用ツールと言うと、文章が文字が長いので、「データ分析ツール」でという用語で統一したいと思います。
データ分析ツールには有料ツールと無料ツールがある!
これからデータ分析を始めたいという方や、データ分析を業務に導入したいという会社の方にとって、分析ツール選びはとても重要ですね。
そこで、まず初めに選択肢として考えなければならないのが、有料ツールの導入か、無料ツールの導入かになります。
データ分析の初心者がツール選びをする場合、おそらく、
- 有料ツール・・・性能的に優れており、信頼性が高い
- 無料ツール・・・性能的に劣っており、信頼性も低い
というように考えられるかもしれません。
例えば、企業用のソフトウェアや業務アプリにおいては、多くの場合、性能は、
有料ツール > 無料ツール
の関係が成り立ちますよね。
しかし、データ分析ツールの場合は、そのような関係式は成り立ちません。
データ分析で広く使われているメジャーな無料ツールについては、世界中の研究者が開発に貢献し、利用しもしています。もちろん論文でのデータ分析にもそのような無料ツールは使われています。
むしろ、AIなどの最新技術はメジャーな無料ツールの方が早く実装されるくらいです。
そのため、決して無料ツールは業務で使えない、なんてことはありません。このような前提のもと、以降の解説を読んでいただければと思います。
まず、結論・・・とりあえず無料の分析ツールから導入すべき!
結論として、分析ツールの導入を検討されている方は、これから紹介する無料ツールの導入から、まずは検討してみてください。
こんなことを言うと、読者の方には「お前、有料ツール使ったことないから、無料ツールをおすすめしてるんちゃうんか?」と思われるかも知れませんね。。。
ちなみに僕の立場ですが・・・有料の分析ツールの世界の2大シェアのSASとSPSSはどちらも、学生時代から仕事においても利用していました。また、僕自身の経歴ですが、以前はSASの開発を行っているSAS Insutitute Japan社で分析コンサルタントとして正社員として働いていたこともあります。また、SPSSについては、協力会社の外部コンサルとしてSPSSユーザーに分析コンサルサービスの提供を仕事としていたともあります。なので、2つの製品にも十分精通しています。
その経験から言いますが、データ分析ツールの導入を検討する際は、絶対に無料ツールからまずは検討すべき!と断言できます。以下は、データ分析ツールは無料ツールで選ぶべき、3つの理由です。
無料分析ツールを選ぶべき理由その1:ツールの性能
先ほども述べた通り、無料ツールだからと言って、機能が劣っているとか、信頼性が低いとかは全くありません。AIやデータ分析の最新の論文においても、主流は無料ツールが使われています。むしろ、最新の理論をソフトウェアに反映するスピードは、無料ツールの方が早いくらいです。
無料分析ツールを選ぶべき理由その2:個人パソコンへのインストール
また、会社勤めの方が、データ分析の技術を習得する場合、会社の中だけで習得するのは難しく、自宅でも勉強する必要があると思います。
その際、有料ツールであれば、自分のパソコンへのインストールができない場合など、自宅での勉強にも差し支えが出ることもあるでしょう。また、仮にデータサイエンティストとして転職を考えた場合、有料ツールしか使えない人は、無料ツールを使いこなしている人に比べて、選択できる職の幅はやはり狭くなると言わざるを得ません。
個人として考えた場合、一部の特殊な業界を除けば、無料ツールの経験者という方が有利に働くでしょう。
無料分析ツールを選ぶべき理由その3:オプション購入のリスク
また、有料ツールは基本的に、機能が初めから揃っているオールインワンで販売されていません。そのため、必要な機能はオプションで追加しなければならないケースが多いです。
このような場合、例えば、会社でデータ分析プロジェクトを立上げたとして、メンバーがデータ分析初心者であることを想像してみてください。そのようなデータ分析初心者が、ツール購入の際に、必要な機能を導入時に正確に業者に伝えることは可能でしょうか?営業マンの言われるがままに、不必要なオプションの購入をしてしまうなんてことも、十分に考えられます。
以上の理由から、まずは無料分析ツールの導入から始めるべきであると考えます。
と言うことで、まずは無料の分析ツールについてそれぞれ見ていきましょう。
無料の分析ツール3選
1.Python
現在、データ分析ツールの代表選手といえば、Pythonと言えるでしょう。
Pythonはデータ分析やAI開発のためのライブラリ(便利なオプションのようなもの)を揃えたプログラミング言語です。プログラミング言語も、実行環境も、ライブラリも基本的に無料で利用可能です。
Macの場合は、すでにPython言語はインストールされているようです。Windowsの場合は、別途公式サイトに行ってインストールすることで使えます。
ちなみに、Pythonは、以下のようなPythonコードと言うプログラミング言語で、実施します(「#」 に続く一文はプログラミングでは「コメント」と言い、プログラミングの構文ではなく、後から見てわかるような注意書きです)
# 1から10までの数値のリストを作成
numbers = [i for i in range(1, 11)]
# 各数値を二乗した新しいリストを生成
squared_numbers = [number ** 2 for number in numbers]
print("元の数値のリスト:", numbers)
print("数値を二乗したリスト:", squared_numbers)
図:Pythonコードの例
書籍等で紹介されているような統計手法やAIモデルなども、ほぼPythonで利用できます。
また、Pythonはプログラミング言語のため、データ分析だけでなく、システム開発も可能です。Pythonがなかった頃は、
「データ分析エンジンはC言語で書いて、そのエンジンをPHPでWEBに実装する」
と言うように、データ分析エンジンとWEBアプリで別々の言語で書き、ファイルをやり取りしていましたが、現在では、Pythonだけで構築が可能です。
ここまでの解説で、普通に考えると、データ分析を学びたい人は、Pythonを学ばない理由はないように思えますが、初心者にとって、唯一の難点が、データ分析をするために、プログラミング言語を書かなければならないという点でしょう。
例えば、データを読み込む場合、Excelなどでは、ファイル→フォルダを選択→ファイルを選択、と言ったように、
マウスで操作しますが、Pythonの場合はその操作を
import pandas as pd
df = pd.read_csv("data.csv")
と言うように、コードで指定して読み込みます。
プログラミングは好きな人は好きですが、生理的に受け付けない人もいますし、ここら辺は好みの問題ですね。
いずれにしても、無料ですので、まずは試しにインストールしてみるといいと思います。インストール方法については、こちらにも記事を書いていますので、よかったら見てください。
2.R
Rはデータ分析や統計解析に特化した無料のツールです。Pythonが汎用的なプログラミング言語だったのに対して、Rはデータ分析や統計解析に特化している点が、大きな違いですね。
また、RはR言語と言うデータ分析に特化したプログラミング言語で操作するのですが、プログラミング言語を操作しなくとも、マウスで操作可能なGUIツールも揃えています(例えばRコマンダー)。
そのため、データ分析専用のツールを扱いたいが、プログラミングは苦手という人にも使いやすいツールといえます。
主要なデータ分析の機能については、PythonとRでどちらも遜色ありません。しかし、どちらかというと、伝統的な統計解析手法はRの方が多く揃っており、最新のディープラーニングや機械学習の手法についてはPythonの方が揃っている印象です。
例えば、多変量解析の一分野である構造方程式モデリングという統計手法についてはRの方が機能が揃っている印象です。
いずれにしても、非常にマニアックな先端分野ではPythonとRで違いはありますが、一般的なデータ分析をやるにあたっては、機能面での違いは意識しなくて良いレベルです。
もし、これまでに何かしらのプログラミング言語を触った事があったり、システム開発に携わっているようであれば、Pythonがおすすめで、そうでなければRがいいと思います。
また、Rについては、初めからRコマンダーのようなGUIツールで始めるといいでしょう。
順序としては、
- RのダウンロードサイトからRをインストールする
- Macの場合:https://cran.r-project.org/bin/macosx/
- Windowsの場合:https://cran.r-project.org/bin/windows/
- Rコマンダーをインストールする
という2段階の流れになっています。
Rのインストールについては、こちらにも解説記事を載せていますので、よかったら読んでくださいね。
3.ExcelとAccess(便宜的に無料ツールとした)
ExcelとAccessはマイクロソフトの有償ソフトウェアです。そのため無料ツールとして紹介するのは矛盾があります。
ただし、企業内で使うということを前提で言えば、ほとんどの会社ですでにインストールされていると思いますので、「追加費用なしで始められる」という意味で無料ツールと言うことにさせていただきました。
もし、この記事を読んでいただいている方が、個人的に勉強でデータ分析をやってみたいとか、データサイエンティストを目指したいと言う場合には、PythonかRの2択で検討いただければと思います。
一方で、会社内の利用で、PythonやRのインストールに制約がある場合もあるかもしれません。フリーツールのインストールはNGとか、決まったツール以外の使用はNGなどですね。
このような場合は、ExcelとAccessでも十分可能です。
両者の切り分けとしては、
- Access・・・複数データの結合や1万件を超えるでデータの加工など
- Excel・・・加工が済んだデータのグラフ化、クロス集計、統計モデルの当てはめ
などになります。
実は、Excelでも統計モデルの利用ができ、分析ツールとしてもなかなか高機能なんですね。Excelで統計解析を実施するにはまず、統計解析の機能を表示させます。操作としては、Excelでタブ「データ」を開き、右端にある「分析ツール」をクリックし、開いた画面のチェックボックス「Solber Add-In」と「分析ツール」の2つにチェックを入れます。
図:Excel、分析ツールの機能を解放!
続いて、同じくタブ「データ」の右端に「データ分析」と言うボタンが新たに追加されたので、クリックすると、分析用のメニューが表示されています。
図:Excel、分析ツールのメニュー
Excelで分析したから、分析結果も大したことない、なんてことは全くあり得ません。Excelで分析する場合も、自信を持ってやってもらえるといいと思います。
PythonやRではなくAccessとExcelを使った分析のメリットとデメリットは以下の通りです。
AccessとExcelのメリット:
- 操作が慣れており、学習コストが低い。
- AccessとExcelでデータ分析を進めることで、
- AccessとExcelの上級者となれ、データ分析以外の仕事でもスキルが使える。
AccessとExcelのデメリット:
- プログラミング言語でないため、同じ処理のくり返しが難しい
- 1万件をこえるデータの分析(グラフ化など)は不向き
- 分析上級者になっても、作業時間の短縮はプログラミング言語に比べ、見込めにくい
以上から、概ね、データ件数が1万件未満で、グラフ化やクロス集計が主な分析である場合、Excelは力を発揮すると思います。
有料の分析ツール2選
こちらは2010年と古いデータですが、データ分析ツールのシェアを表したグラフです。
図:有料ツールのシェア
http://proc-x.com/2012/05/will-2015-be-the-beginning-of-the-end-for-sas-and-spss/
SPSSとSASがツールとしてトップを走っていますね。
実は、現在では、PythonとRのシェアが上回っていると言われています(具体的なデータを見つける事ができませんでしたが、そのような言及はネットでも多くみられます)。
とは言え、有料のデータ分析ツールの中で限って言えば、この2つのツールが有料ツール2大シェアを占める構図は
変わらないようです。
そこで、ここではSASとSPSSについてそれぞれ、解説したいと思います。
ただし、個人でデータ分析をしたい場合やデータサイエンティストを目指したい場合は、有料ツールの導入を選択肢として考える必要は全くありません!無料ツールでぜひ勉強してください。
そのため、以降の有料ツールの検討については、企業での導入を検討されている方のみが選択肢として考えればいいでしょう。
SAS
SAS言語と言われるデータ分析に特化したプログラミング言語を使った分析ツールです。
アメリカに本社がありますが、六本木ヒルズの11階に日本法人があります。僕も数年前、SASの正規の分析コンサル社員として勤めていました。
SAS社は、元々はPythonやRと同じく、プログラミング言語(SAS言語)でデータを分析するためのツールを作っていましたが、現在では、GUIで分析可能なツールも用意しています。
研究機関・教育機関・医薬機関・市場調査会社等で、伝統的に統計解析が必要な企業で、今でも多く導入されているようです。
価格については、価格表を公開しておらず、かつ、毎年、本国アメリカからの意向を反映しなければならないため毎年価格が変動しているようです。
様々なパッケージなどを組み合わせて販売しているためなかなかいくらとは言えませんが、多くの場合初期費用で100万円以上で、毎年数十万円のライセンス費用がかかるのではないでしょうか(あくまで個人的な妄想です)
以上より、データ分析や統計解析が自社のビジネスで非常に重要なウェイトを占め、自社の存在する業界で長らくSASが使われているような場合は、SASを検討してみてもいいかもしれません。
例えば、医薬品の治験のための統計解析を行う際など、統計解析の結果が莫大な予算を左右するような業界では、なかなか新たなツールの導入が難しい場合もあり、継続的にSASを使うというケースが多いですね。
以上から、SASを使うべき場合の僕なりの結論としてはこうなります。
SASを選択肢として考える場合・・・
自社の生産工程に直結した分析ツールが必要で、かつ、SASが伝統的に業界のデファクトスタンダートとなっている場合や、過去の先人が、自社のビジネスにおいて非常に重要な工程において、多くのプログラミングコードをSAS言語で残しており、そのコードのトレースが必要な場合
SASを選択肢に考えなくともいい場合・・・
生産工程ではなく、自社のマーケティングや営業場面での使用を検討している場合や、これから新たに分析チームを立ち上げ、新たに分析ツールを検討している場合
SASの元社員ということもあり、ちょっと辛口な評価でした。
SPSS
こちらもアメリカの企業の製品です。元はSPSSと言う独立した企業の分析ツールでしたが、2009年にIBMによって買収されました。
この時期はちょうど、僕は零細データ分析企業で、コンサルとして働いており、SPSS社でもIBM社でも下請けのデータ分析コンサルとして、SPSSを導入したエンドユーザーに分析コンサルティングをしていました。そのため、SPSSについても業務でかなり使っていました。
先ほどのSASと言うツールは、裏でSAS言語が動いているプログラミングベースの分析ツールでしたが、SPSSは当初からGUI(プログラミングではなくマウスで操作するインターフェイス)ベースの分析ツールとして開発されていました。
2000年以前では、データ分析は一部の研究者や技術者が実施するものでしたが、2000年以降、データマイニングと言う手法(今のビッグデータの機械学習)が流行した頃から、大企業を中心に本格的なデータ分析の業務を担う部署が立ち上がることになり、その結果、SPSSもエンドユーザーへ普及していったイメージです。
そのため、SASとSPSSのイメージは研究関係や職人的なデータ分析といった硬派な分析者はSASで、マーケティング関連の新たなビジネスユーザーはSPSSといった、なんとなくのイメージを持っていました。
また、2010年くらいまでは、GUIベースで操作しやすい、汎用的なデータ分析ツールやデータマイニングツールは、世の中にSPSS以外にはほぼ皆無、と言う時代もあり、GUIによるデータマイニングはSPSSの1強でした。その頃にBIツールやデータ分析関連で強化を図りたいIBMによる買収劇もあったんですね。
しかし、今となれば、SASも(はっきりいって使いにくいですが)曲がりなりにもGUIツールを開発していますし、Rと言う超高性能でGUI操作も可能な分析ツールも登場しており、個人的には、SPSSの分析業界に与える役目は終焉に近づいているのでは・・・と感じています(あくまで個人的な感想です)。
導入費用については、僕もこちらとのお仕事のお付き合いが途切れて長いため、詳しいことは分かりませんが、SASとそれほど価格は変わらないと思います。
まあ、SPSSのメリットを強いてあげるなら、IBM傘下と言うことで、自社システムがIBMによって構築されているような場合、他システムとの連携はたのソフトウェアよりもSPSSが有利に働くでしょう。
そのため、IBMの営業マンからおすすめされれば、SPSSを検討すればいいでしょうし、そうでないのであれば、わざわざSPSSを進んで検討する必要はないと個人的には思います。
まとめ
以上、データサイエンスに特化したデータ分析ツールのおすすめについてご紹介しました。かなり、偏りのある個人的な選り好み解説だったかもしれませんが、今回ご紹介したツールはすべて、自分自身で長年使ったことのあるツールのため、正直にお話しました。
ぜひ、あなたも今回の記事を読んでいただき、ツール選びの参考にしていただければ、幸いです。