Technical Blog テクニカルブログ
  1. HOME
  2. テクニカルブログ
  3. Treasure Data CDP<第17弾>TD AutoMLを動かしてみた!

Treasure Data CDP<第17弾>TD AutoMLを動かしてみた!

投稿者:マーケティングチーム

NI+C マーケソリューションチームです:)

本Tech Blogでは、NI+Cで取り扱っているTreasure Data CDPを紹介していきます。

今回はTreasure Data CDP「AutoMLを動かしてみたのテーマとなります。

AutoMLは機械学習の機能です。通常、機械学習機能を動かすには分析とするデータを準備する必要がありますが、Treasure Data内に分析データを準備する機能もAutoMLと同時にリリースされました。まずは、分析に使うデータ(テーブル)を準備する手順から始めていきます。

データの準備(テンプレート「ML datasets」をベースにワークフローを作成・実行)

Treasure DataのコンソールからWorkflowsのメニューを表示し、画面右上(赤枠)の「New User-Defined Workflow」を押下します。

左上(赤枠)の「Workflow Name」には任意の名称を入力します。(ここでは、「auto_ml_data_create」と入力しています。なお、「Project Name」は、「Workflow Name」と同じ名称が自動で設定されます。)「Workflow Template」のリストを開いて下にスクロールし、緑枠の”ML datasets”を選択します。

“ML datasets”を選択した後、下図のような画面が表示されたことを確認し、画面右上(赤枠)の「New Workflow」を押下します。

ワークフローが保存され、下記のdigファイルの画面に遷移します。

6行目の「{$output_database}」を作成済の任意のデータベース名(赤枠)に書き換えます(ここでは”auto_ml_sample”としています)。書き換えたら後述[※注1]を確認後、右下(緑枠)の「Save & Commit」を押下した後右上「×」ボタンでこの画面を閉じます。

[※注1]このあとの操作で、ここで指定したデータベース内に30個以上の新規テーブルが作成されることになります。上記で既に別の用途で作成済のデータベースを指定すると、そのデータベースにAutoML用のテーブルとこれ以外のテーブルが混在することになり管理が煩雑になりがちです。上記で指定するデータベースは既存のものは流用せず、AutoML専用に新規に作成し、他のテーブルが混在しない状態にすることをお勧めいたします。なお、ここで敢えて存在しないデータベース名を指定することで、ワークフロー実行時にデータベースを新規作成することも出来ます。

次に、このワークフローにAPIキーを設定していきます。APIキーは、画面左下の青いアカウントのイニシャルが表示された丸いボタンから取得することが出来ます。下図赤枠の「API Keys」を押下します。

下図赤枠のAPI Keyをクリックします。(※下図のAPI Keyはマスキングしています。)

下図のポップアップが画面右上に出現したら、API Keyのコピーが出来ています。これを先ほどのワークフローのSecretsに設定していきます。

先ほど作成したワークフローの画面に戻り、下図赤枠の「Secrets」タブを選択します。画面右上(緑枠)の「+」ボタンを押下します。

表示されたポップアップの赤枠「Name」に”td.apikey”と入力します。「Secret Key」には、先ほどMaster keyのAPIキーを貼り付け、右下緑枠の「Create」を押下します。

下図赤枠部分に”td.apikey”が追加されているのを確認し、右上緑枠の「New Run」を押下してワークフローの実行を開始します。

「Run Hisoty」からワークフローが「Success」で実行が完了したことを確認します。これで、分析に使うデータの準備作業は完了です。

AutoMLのワークフローを作成・実行

ここからは、AutoMLを実行するワークフローを作成していきます。

先ほどと同様に、Treasure DataのコンソールからWorkflowsのメニューを表示し、画面右上(赤枠)の「New User-Defined Workflow」を押下します。

下図赤枠の「Workflow Name」には任意の名称を入力します。(ここでは「auto_ml_sample_wf」と入力しています。「Workflow Template」のリストから緑枠の”Automl sample”を選択します。

“Automl sample”を選択した後下図のような画面が表示されたことを確認し、画面右上赤枠の「New Workflow」を押下します。

ワークフローが保存され、下記のdigファイルの画面に遷移したら、画面左(赤枠)の「config/params.yaml」を選択してyamlファイルを表示します。

yamlファイル1行目(赤枠)を先ほど分析用テーブルを作成したデータベース名(今回は「auto_ml_sample」)に書き換え、右下(緑枠)の「Save & Commit」ボタンを押下します。(その他のパラメータも編集可能ですが、ここでは全てデフォルト値としています。)

右上の「×」ボタンを押下して編集画面を閉じ、「Secrets」タブを選択します。画面右(赤枠)の「+」ボタンを押下し、先ほどと同様に”td.apikey”を追加します。設定するAPI Keyは、先ほどと同じMaster Keyです。下図(青枠)の通り”td.apikey”のSecretsが追加されていることを確認します。画面右上(緑枠)の「New Run」ボタンを押下し、ワークフローの実行を開始します。

「Run History」を表示し、下図のワークフローの実行ステータス(赤枠)が「success」で終了していることを確認します。青枠「Tasks」を押し、下記画面を表示します。「Notebook」の下に表示されている「gluon_train」(緑枠)のリンクをクリックします。

「gluon train」のNotebook(下図)が表示されます。ここで、AutoMLの実行で得られた分析・学習結果を参照することが出来ます。

[分析・学習結果の一例]ROC曲線

ワークフローの画面(下図)に戻り、緑枠の「gluon_pre…」のリンクを開きます。

「gluon predict」のNotebook(下図)が表示されます。ここで、AutoMLが出力した予測結果を参照することが出来ます。

以上、「TD AutoMLを動かしてみた!」のテーマでお送りいたしました。

Treasure Data CDPにご興味を持たれた方はぜひ「こちら」からお問い合わせください

その他、Treasure Data CDP についての記事はこちら↓

セグメント作成について↓↓
Treasure Data CDP <第1弾>Audience Studio の機能でセグメント作成してみた!!

Activationについて↓↓
Treasure Data CDP <第2弾>Audience Studio の機能 Activation を使ってみた!

Predictive Scoring について↓↓
Treasure Data CDP <第3弾>Predictive Scoring のご紹介

データのインポートについて↓↓
Treasure Data CDP <第4弾>Treasure Data にデータをインポートしてみた

SQLを使ったデータの抽出方法について↓↓
Treasure Data CDP<第5弾>SQL を使ってデータ抽出してみた!

Treasure Workflowについて(前編)↓↓
Treasure Data CDP<第6弾>Treasure Workflow とは(前編)

Treasure Workflowについて(後編)↓↓
Treasure Data CDP<第7弾>Treasure Workflow とは(後編)

新機能 ジャーニーオーケストレーションについて↓↓
Treasure Data CDP<第8弾>新機能 ジャーニーオーケストレーション ご紹介

Server Side 1st Party Cookieについて↓↓
Treasure Data CDP<第9弾>Server Side 1st Party Cookieのご紹介

ジャーニーオーケストレーションの機能を使ったジャーニーの作成方法について↓↓
Treasure Data CDP<第10弾>【Journey Ohchestration】ジャーニーを作成してみよう!

Predictive Scoring 予測モデルの作成から実行について↓↓
Treasure Data CDP<第11弾>Predictive Scoringを使ってみた!

Policy Based Permissionについて↓↓
Treasure Data CDP<第12弾>Policy Based Permissionとは?

Treasure Insights について↓↓
Treasure Data CDP<第13弾>Treasure Insights について ご紹介

ID Unificationについて↓↓
Treasure Data CDP<第14弾>ID Unification 機能 ご紹介

アップデートされたAudience Studioについて↓↓
Treasure Data CDP<第15弾>アップデートされたAudience Studioのご紹介!

Utilizationについて↓↓
Treasure Data CDP<第16弾>Utilizationについてご紹介

ページのトップへ