本記事は、下記2つの記事の続編として、EDAの便利ツールである「Autoviz」を紹介する記事です。
-
-
【機械学習】EDAのための便利ツールを試してみる_Pandas-profiling
Kaggleや機械学習を始めて、EDA(Exploratory Data Analysis)のやり方に苦戦する方も多いのではないでしょうか。 EDAは簡単に言うとデータ全体の傾向を掴み、「どんな説明変 ...
続きを見る
-
-
【Sweetviz】機械学習EDAの便利ツールをPythonで試してみる
本記事は、下記の記事の続編として、EDAの便利ツールである「Sweetviz」を紹介する記事です。 Kaggleや機械学習を始めて、EDA(Exploratory Data Analysis)のやり方 ...
続きを見る
Kaggleや機械学習を始めて、EDA(Exploratory Data Analysis)のやり方に苦戦する方も多いのではないでしょうか。
EDAは簡単に言うとデータ全体の傾向を掴み、「どんな説明変数が使えそうか」「何か意味のある説明変数を作れそうか」と言ったことを考える非常に重要な工程です。

と常日頃思っておりました。
そんな中、先日下記の記事を拝見しました。
4 Libraries that can perform EDA in one line of python code
様々なEDAをコード数行で一気に行ってくれるツール4選を紹介しています。
前の記事で「Pandas-profiling」「Sweetviz」を紹介し、本日は「Autoviz」をKaggleのtitanicを使って試したので、Autovizを初めて使った私が「ここが使えそう」「良いと思った」点を紹介したいと思います。
本記事の目次は以下の通りです。
1.前準備
STEP1:コマンドプロンプトでpip installしておく
記事にあるとおり、下記のコマンドでAutovizをpipインストールしておきます。
初心者の方に念のため補足ですが、下記コマンドはjupyter notebookではなく、「cmd」とPCで検索をしてコマンドプロンプトを起動するか、やっていることはほぼ同じですがanacondaをインストールしている場合は「Anaconda Prompt」を起動しても良いです。
command
pip install autoviz
STEP2:jupyter notebookで必要な内容をインポートしておく
jupyter notebookを立ち上げ、下記をインポートしておきます。
command
#pandasのインポート
import pandas as pd
#Autovizのインストール
from autoviz.AutoViz_Class import AutoViz_Class
STEP3:データの読み込み
Kaggleのtitanicで、train.csvを読み込んでいきます。
command
df_train = pd.read_csv("train.csv")
ここまでできたら準備完了です、早速便利ツールを使っていきましょう!
2.Autovizの実装
では、早速やっていきましょう。
command
autoviz = AutoViz_Class().AutoViz('train.csv')
この1行の記述だけです!
Pandas-profilingやSweetvizはhtmlに出力しましたが、Autovizは上記のコードを実行すれば、直接Jupyter notebook上で結果を見れます。
下記のような出力がずらっとnotebook上で見られます!
冒頭に紹介した記事のAutovizの説明でも書かれていますが、Autovizはデータビジュアライゼーション(可視化)に特化したツールのようで、上記のようにカラム別のデータ可視化が一気に表示されます。
少しPandas-profilingやSweetvizとは毛色が違う気がしますね。次の章で、Autovizの便利だと思ったポイントを挙げていきます。
3.Autovizの便利ポイント
■便利ポイント1:カラム間の関係性が直感的にわかりやすいこと
下記のように、年齢(Age)やチケット代(Fare)について、目的変数のSurvied別に平均を表示してくれます。
ですので、直感的に

と考えることができます。
私は毎回同じような図を都度コードを書いて表示していたので、これはすごくありがたい機能だと思いました。
■便利ポイント2:ヴァイオリンプロットが表示されること
下記のように、連続値についてはヴァイオリンプロットが表示されます。
実は、私はKaggleやデータサイエンスのコンペに参加する際、ヴァイオリンプロットで可視化をすることが多いので、これは非常に嬉しいと思いました!
ただ、少し残念なのはカテゴリ変数については、カテゴリ別に表示される機能はどうやらなさそうなので、このツールだけで自分が今までやっていたことの補完はできなさそうだなと感じています。
■2020年11月29日追記
この記事のコメント欄で、「Autovizがバージョンアップされてるよ」という内容のコメントを頂きました!
試したところ、ヴァイオリンプロット自体は上で挙げた「カテゴリ別に表示される機能はまだない」のですが、いくつか可視化される内容が追加されていました。
たとえば相関係数が以下のように、カテゴリ変数も追加されるようになっていました。きっと今後もっと便利になっていくのだと思います!
<Before>
<After>:見づらいですが、カテゴリ変数も相関係数に追加されています。
4.まとめ
いかがでしたでしょうか。
データビジュアライゼーションに特化しているので、これ1つだけで完結することはないかもしれないですが、
便利ポイント1のカラム間の関係性が直感的にわかりやすいのは、特に目的変数と他のカラムの情報がわかるので、使い勝手がいいと感じました。
次回は最後のD-Taleについて紹介していきます。
以下の記事ではデータサイエンス分野でおすすめのudemy講座(Python、統計、SQL、git、docker)を紹介しているのでこちらも是非チェックしてみてください。
最後までお読み頂きありがとうございました。