機械学習やデータマイニングなどにおいて、「決定木分析」(ディシジョンツリー)という単語をよく耳にしますが、何となくしか理解していない方も多いのではないでしょうか。
この記事では、決定木分析について知りたい方向けに、決定木分析の概要や、分類木・回帰木について、ランダムフォレストの概要や特徴、決定木分析のビジネスにおける活用場面や活用例などを解説します。
決定木分析を活用するうえで、ぜひ参考にしてください。
目次
決定木分析(ディシジョンツリー)とは
決定木(けっていぎ・ディシジョンツリー・decision tree)とは、後述する分類木と回帰木を組み合わせたもので、ツリー(樹形図)によってデータを分析する手法です。機械学習や統計、マーケティングや意思決定などさまざまな分野で用いられます。
分類木とは
この図は、決定木のツリーです。こうした図をよく目にする方も多いのではないでしょうか。
図のように、平日か休日か・その日が晴れか雨かというデータ、およびアイスクリームを購入するかしないかという大量のデータが与えられているとします。
データは、平日の晴れにはアイスクリームを買う、休日の雨にはアイスクリームを買わないといった、条件ごとの結果をそれぞれ表す大量のデータです。
こうしたデータを分類するために、その日が平日か休日か、そして天気が晴れか雨かといった各要素に対して、「アイスクリームを買う/買わない」といった区分結果を表したツリーが「分類木」(ぶんるいぎ)です。
その日が休日かどうか、天気などの要素が、購入者の行動にどれだけ影響を与えているのか、その度合いを決定木で分析することができます。
教師データと教師あり学習
その日が平日か休日か、そして天気が晴れか雨かといった「質問」に対して、アイスクリームを買うか買わないかといった「答え」を「教師データ」といいます。
教師データとは、現実のデータなどをもとにした「正解」データです。たとえば、写真から年齢を判別して分類する機械学習では、写真の人物の実年齢や人間が下した判断などが教師データとなります。
機械学習は、教師データの与えられ方により「教師あり学習」「教師なし学習」「強化学習」の3つに大きく分類されます。
「教師あり学習」とは、質問と正解(教師データ)をもとに行う機械学習で、分類や回帰に活用されるケースが多いです。決定木は、教師あり学習の代表的な分析手法です。
「教師なし学習」は、質問だけ与えられ、正解(教師データ)は与えられない機械学習で、グループ分けや情報の要約に活用されます。
「強化学習」は、質問は与えられ、正解(教師データ)は与えられませんが、報酬は与えられる機械学習です。たとえば、ロボットの歩行についての強化学習では、歩けた距離が報酬データとして与えられ、試行錯誤して距離を伸ばそうとします。強化学習は、将棋や囲碁用の人工知能などに活用されています。
回帰木とは
「アイスクリームを買う/買わない」といった区分結果を分析する場合には「分類木」を使いますが、「○円のアイスクリームを買う」といった連続して変わりうる値を分析する場合には「回帰木」(かいきぎ)を使います。
たとえば、ポスティングしたクーポンの利用枚数は、「天気」「チラシのポスティング数」などの要素に左右されると仮定します。
この場合、「天気は晴れか?」→YES→「チラシを1万枚ポスティングしたか?」→YES→1万枚あたり35人が来客、といったように、連続値(この場合は35人)を推定するルールをツリーの流れで表したものが、回帰木となります。
分類木と回帰木を合わせて「決定木」と呼んでいます。区分の分類を行いたい場合は分類木を使い、数値を予想したい場合は回帰木を使いましょう。
ランダムフォレストとは
ランダムフォレストとは、ざっくりいうと、複数の決定木を集めたものです。ツリー(木)が集まったものなので、フォレスト(森)と呼ばれます。
たとえば、「写真Aは男性か女性か」という質問に対して、分類木1は女性、分類木2は男性、分類木3は女性という分析結果を出している場合、すべての分類木の結果を集めて多数決をとったら、写真Aは女性であるという分析結果が出ます。
ランダムフォレストには、主に次の特徴があります。
アンサンブル学習
「アンサンブル(ensemble)」は、元々フランス語で、統一や調和といった意味があり、複数のものが集まって一体化した状態を指します。アンサンブル学習とは、ざっくりいうと多数決をとる学習方法で、別々の決定木としてそれぞれ学習させた結果を融合・統一させます。
たとえば、個々の能力は高いけれど得意分野が同じ3人において多数決をとると、不得意分野が重なっているため正解率は上がりません。対して、個々の能力は普通だけれど得意分野が異なる3人において多数決をとると、不得意分野をカバーしあえるので、多数決によって正解率が上がります。
つまり、決定木においても同じことがいえ、学習範囲が異なる複数の決定木を集めてアンサンブル学習を行うことで、単独の決定木よりも優れた分析結果を得ることができます。
バギング
バギングとは、アンサンブル学習の主な手法のひとつであり、ブートストラップサンプリングによって得た学習データを用い、複数の決定木を作って多数決をとります。
ブートストラップサンプリングとは、母集団の学習データから、各決定木で使うデータをランダムに復元抽出することで、データセットに対して多様性をもたせる手法です。復元抽出とは、一度選んだデータがまた選べるよう重複を許す抽出方法になります。
たとえば、学習データA〜Eといった5個の学習データがある場合、各決定木が「A・B・C・D・E」と同じデータから学習すれば、同じ分析結果が出てしまいます。
バギングでは、ブートストラップサンプリングを活用して、決定木1は「A・A・E・D・B」、決定木2は「E・C・B・B・C」といったように、5個の学習データを復元抽出することで、多様性のある分析結果を出します。
ランダムフォレストのメリット
ランダムフォレストのメリットとしては、決定木をもとにしているためシンプルでわかりやすく分析結果を説明しやすい点や、各決定木は並列処理が可能なため計算も高速で精度もよい点などが挙げられます。
ビジネスにおける決定木分析の活用場面
決定木分析は、機械学習以外にも、ビジネスにおけるマーケティングや意思決定などさまざまな分野で活用することができます。
たとえば、顧客の購入履歴から、自社製品やサービスを購入/購入見込みが高い顧客層の特徴分析や、製品の要素が顧客満足度やロイヤリティに与えている影響度分析も可能です。
小売業においては、年齢や性別といった顧客の属性データや購入履歴、DMなどへの応答履歴が分析対象のデータとなります。EC企業では、そうしたデータに加え、ネット広告やキーワードごとのCV(コンバージョン)率や、ユーザーのアクセスログなども利用可能です。
このようなデータの分析から、商品やサービスの購入/離脱原因や選択基準の把握、顧客セグメントが可能になり、マーケティングに活用できます。
顧客セグメントにおける理想的な条件として、次が挙げられます。
- セグメントにより、消費者の行動分類が明確にできる
- セグメントのロジックがシンプルでわかりやすい
- 企業が対象となる層にアクセスできる
こうした条件を満たす顧客セグメントは、決定木分析によって可能になります。決定木分析では、消費者の予測したい行動を目的変数(予測したい変数)に設定し、企業がもっている顧客情報を説明変数(目的変数を説明する変数・原因となる要素)に設定すれば、現実の購入履歴データなどをもとに、消費者の行動を予測可能だからです。
決定木分析の活用例
決定木分析の対象となるデータは、購入履歴など、顧客の年齢や性別などの属性要素と、商品やサービスの購入結果(教師データ)がセットで記録されています。
決定木分析においては、こうしたデータセットを属性要素と購入結果に注目して分割し、分析ツリーを作っていきます。ツリーでは、購入結果に大きく影響を与える属性を上部にもってくるのが効果的です。
活用例として、たとえば、テニスの未経験者層において、今後テニスを行う見込みが高い層にはどのような特徴があるのかを分析したい場合を挙げてみます。
目的変数を「テニスへの関心の有無」とし、説明変数として、年齢や性別、職業などの属性や、「好きなテニス選手がいる」「インドア派よりアウトドア派」「健康に気をつかっている」などの質問を多数設定して、ツリーを作ります。
ツリーの左側を「テニスに関心がある」、右側を「テニスに関心がない」となるよう設定すると、ツリーの階層が深くなるほどテニスに関心がある割合が上がります。
ツリーの分析により、一番左側の最もテニスに関心がある層から、その隣の予備軍、一番右側の最もテニスに関心がない層などの特徴が把握でき、顧客セグメントや優先順位づけに役立てることが可能です。
まとめ
決定木とは、分類木と回帰木を組み合わせたもので、ツリーによってデータを分析する手法です。決定木は教師あり学習の代表的な分析手法で、質問と正解(教師データ)のデータセットが学習データとして与えられます。
ランダムフォレストとは、複数の決定木を集めて多数決をとる分析手法です。学習範囲が異なる複数の決定木を集めてアンサンブル学習を行うことで、単独の決定木よりも優れた分析結果を得ることができます。
決定木分析は、ビジネスにおいても活用できます。顧客において予測したい行動を目的変数に、顧客情報を説明変数に設定すれば、購入履歴などから消費者の行動を予測可能です。活用例には、顧客の購入履歴から自社製品を購入する顧客層の分析などが挙げられます。
シンプルでわかりやすい顧客セグメントを目指したい方にとっては、決定木分析についての理解を深め、ビジネスで実践することは有益といえるでしょう。