Treasure Data CDP<第11弾>Predictive Scoringを使ってみた!
投稿者: Treasure Data担当者

NI+C マーケソリューションチームです:)
本Tech Blogでは、NI+Cで取り扱っているTreasure Data CDPを紹介していきます。
今回は以前のBlogでご紹介した、Treasure Data CDPが提供するPredictive Scoringについて、実際に試して結果を見ていきます。
Predictive Scoringのご紹介についてはこちらの記事をCHECK!
▶ Treasure Data CDP<第3弾>Audience Studio の機能 Predictive Scoring のご紹介
検証内容
[退会済]と[非退会]のフラグを持つ会員データから、非退会の会員が退会する可能性をスコアリングします。
以下の検証データを用意しました。

- 1000件の会員データ(手作りのサンプルデータです。画像では割愛していますが、電話番号、メールアドレス、郵便番号、住所、生年月日、出身地、血液型、等の項目も含まれています)
- ①withdrawal_flg(退会フラグ)は、1が退会済、0が非退会を示しています(1000件中、退会済が120件、非退会が880件)
- ②generation(年代)は、20歳~29歳が20代、30歳~39歳が30代といったように10歳毎の区分値となっています
- ③rank(ランク)は、会員のランクで、高い順にA,B,C,Dとなっています
- 年代とランクが低いほど、退会済が多い傾向のあるデータとなっています
事前準備
Predictive Scoringを実施する前に、以下の事前準備を行います。
- 検証データを、Treasure Data CDPのテーブルとしてインポートする
- 上記でインポートしたテーブルから、ペアレントセグメント(マスターセグメント)を作成する
- 上記で作成したペアレントセグメントから、セグメントを2つ作成する
(退会済(withdrawal_flg = 1)、非退会(withdrawal_flg = 0)の2つ)
Treasure Data CDPへのデータインポートについてはこちらの記事をCHECK!
▶ Treasure Data CDP<第4弾>Treasure Data にデータをインポートしてみた
ペアレントセグメントとセグメントの作成についてはこちらの記事をCHECK!
▶ Treasure Data CDP <第1弾>Audience Studio の機能でセグメント作成してみた!!
以下のペアレントセグメントとセグメントが出来上がります。



Predictive Scoringの予測モデル作成
ここからが今回のテーマである、Predictive Scoringの設定となります。
Predictive Scoringでは『予測モデル』というものを作成することで、スコアリングされた結果が確認できるようになります。
予測・モデル・スコアリング等と言うと、難しそう・大変そうに感じられるかもしれませんが、
予測モデルの設定画面はたった2つ、指定するものも以下の2種類だけで、作ることができます!
- スコアリングに使うセグメント
- スコアリングに使う項目
それではさっそく、予測モデルを作っていきます。
まずはオーディエンススタジオを開き、事前準備で作ったペアレントセグメント(今回はps_demo_master_segment4)を選びます。
選んだら右上の『+新規作成』をクリックします。
予測モデルを選択して、名前を入力して『次へ』をクリックします。

以下が1つ目の設定画面です。ここではスコアリングに使うセグメントを指定します。

①トレーニング対象者
予測モデルに使用するデータの入ったセグメントです。
今回は②③で指定するセグメントの元である1000件の検証データが入ったペアレントセグメントを選びます。
②スコアリング対象
スコアリングしたいデータの入ったセグメントです。
今回は非退会の会員が退会する可能性をスコアリングしたいので、非退会(withdrawal_flg = 0)のセグメントを選びます。
③ポジティブサンプル
スコアリングする際に教師データとなるデータの入ったセグメントです。
今回は退会済の会員データを教師データとするため、退会済(withdrawal_flg = 1)のセグメントを選びます。
上記を指定したら『次へ』をクリックします。
以下が2つ目の設定画面です。ここではスコアリングに使う項目を指定します。

④質的変数
文字列の項目(例:年代、ランク、性別、住所、等)
⑤質的変数のリスト
④の文字列が配列になった項目
⑥量的変数
数値の項目(例:年齢、金額、個数、回数、等)
今回の検証データは、年代とランクが低いほど、退会済が多い傾向のあるデータになっていますので、
④の質的変数に、rankとgenerationを指定します。
※右上の『推奨の特徴量を利用』を選択すると、Treasure Data CDPが自動で選んだ項目を使うこともできます。
上記を指定したら『作成と学習』をクリックします。
予測モデルの作成が始まり、今回の検証データでは5分ほどで完了します。
その後ペアレントセグメントの更新を求められるので更新します。こちらも5分ほどで完了します。
予測モデルの作成は以上となります!
予測モデルの結果確認
予測モデルが作成されると、オーディエンススタジオのペアレントセグメント配下に保存されるので選択します。
タブが3つあります。
『モデルの詳細』は設定画面で指定したセグメントと項目が確認できます。
残りの2つについては以下の通りです。
『モデルのパフォーマンス』

①精度
結果の信頼性。0~100%
②AUC(Area Under the Curve)
予測性能の高さ。0~1で、0.7 ~ 0.9 が最適
今回は最適の範囲内に収まっています。
③重要なFeature
赤:スコアが低くなっている要因と度合い
緑:スコアが高くなっている要因と度合い
今回の結果を見ると、
年代が70代や60代、ランクがAやB等、年代とランクが高いほど、赤なのでスコアが低くなります。
反対に、年代が20代や30代、ランクがD等、年代とランクが低いほど、緑なのでスコアが高くなります。
今回の検証データは、年代とランクが低いほど、退会済が多い傾向にあり、退会済を教師データとしています。
スコアは教師データと類似しているほど高くなるため、
年代とランクが低いほどスコアが高くなるということは、今回期待した通りの結果になっていることになります!
④設定画面で指定した変数の値のバリエーション
『予測スコア』

⑤予測スコア分布
Unlikely < Marginally < Likely < Highly Likely の順で高スコアとなります。
⑥プロファイル分布
横軸:0 ~ 100 のスコア値
縦軸:プロファイル(顧客)数
※横軸の下のバーを移動させることで、Unlikely < Marginally < Likely < Highly Likely の閾値を変えることができます。
⑦プロファイル
プロファイルを選択すると、各項目の値やスコアを確認することができます。
今回の結果を見ると、
Likelyに分類されたプロファイルが20件、Marginallyに分類されたプロファイルが51件、あることが分かります。
『モデルのパフォーマンス』の『③重要なFeature』にて、
年代とランクが低いほどスコアが高くなるということが示されていました。
そこで、高スコアで分類されたLikelyとMarginallyに含まれているプロファイルの年代とランクが低いのか確認したいと思います。
『予測スコア』画面右上の『セグメントの作成』をクリックし、LikelyとMarginallyのセグメントを作成します。
オーディエンススタジオのActivation機能を使うと、作成したセグメントを、外部ツールやTreasure Data CDPのテーブルとして出力することができます。
今回はTreasure Data CDPのテーブルとして出力します。
Activationについてはこちらの記事をCHECK!
▶ Treasure Data CDP <第2弾>Audience Studio の機能 Activation を使ってみた!
以下は、出力されたテーブルから、年代とランク毎の件数を抽出した結果です。
Likely

Marginally

年代とランクが低いほど、LikelyやMarginallyといった高スコアに分類されており、
今回期待した通りの結果になっていることが分かりました!
最後に
検証データによるPredictive Scoringの結果をご紹介させていただきましたが、いかがでしたでしょうか?
Treasure Data CDPのPredictive Scoringでは、今回ご紹介したように、少ない設定画面で、簡単に予測スコアリングした結果を表示することができます。
結果を外部ツールやTreasure Data CDPのテーブルとして出力することもできますので、他のデータと組み合わせて活用することもできるのではないかと思います。
Treasure Data CDPのPredictive Scoringのご利用をご検討頂ければ幸いです。
Treasure Data CDPにご興味を持たれた方はぜひ「こちら」からお問い合わせください
その他、Treasure Data CDP についての記事はこちら↓
セグメント作成について↓↓
Treasure Data CDP <第1弾>Audience Studio の機能でセグメント作成してみた!!
Activationについて↓↓
Treasure Data CDP <第2弾>Audience Studio の機能 Activation を使ってみた!
Predictive Scoring について↓↓
Treasure Data CDP <第3弾>Predictive Scoring のご紹介
データのインポートについて↓↓
Treasure Data CDP <第4弾>Treasure Data にデータをインポートしてみた
SQLを使ったデータの抽出方法について↓↓
Treasure Data CDP<第5弾>SQL を使ってデータ抽出してみた!
Treasure Workflowについて(前編)↓↓
Treasure Data CDP<第6弾>Treasure Workflow とは(前編)
Treasure Workflowについて(後編)↓↓
Treasure Data CDP<第7弾>Treasure Workflow とは(後編)
新機能 ジャーニーオーケストレーションについて↓↓
Treasure Data CDP<第8弾>新機能 ジャーニーオーケストレーション ご紹介
Server Side 1st Party Cookieについて↓↓
Treasure Data CDP<第9弾>Server Side 1st Party Cookieのご紹介
ジャーニーオーケストレーションの機能を使ったジャーニーの作成方法について↓↓
Treasure Data CDP<第10弾>【Journey Ohchestration】ジャーニーを作成してみよう!