GCPで始めるデータ分析と活用 概念編:データアナリティクス/サイエンティスト
投稿者:熊谷
こんにちは。アメリカ大統領選が気になる時期です。
前回(リンク)では、データエンジニアリング編をまとめました。
今回は後半として、データアナリティクス/サイエンティスト編になります。
繰り返しになりますが、GCP(Google Cloud Platform)ではデータ分析に必要なコンポーネントが非常によく揃っています。
今回はいくつかあるGCPのコンポーネント中で、データアナリティクス/サイエンティストに向けての解説になります。
本ブログを見て、”データの活用を考えてみよう!”または”一緒に考えたい!”と思っていただける方がいらっしゃると幸いです。
データを見る
ここまで、「溜まっていた情報を処理して、すぐ使えるようDWHに格納する」までをまとめてきました。
ここからは、使えるデータをどう使うかに注視していきます。
主に、データアナリティクスやデータサイエンティストの作業範囲となります。
BIツール等を駆使し、データ分析を行うとともに、データサイエンティストと連携して予測モデルを作成する元ネタにも使用されます。
ビジネスインテリジェンス : BI
日々蓄積されていく膨大なデータを分析し、その分析結果を経営意思決定に活用することをビジネス・インテリジェンスといいます。
数年前であれば、Excelでデータを加工し、グラフを描画し、経営報告に使用していたと思います。現在主流となっているのは、”直接DWHやRDBに接続し、リアルタイムレポーティング”です。これから説明する、データポータルやLookerがその流れを組んでいます。
データアナリストはこれらのツールを駆使し、データを分析し、経営の意思決定を支援します。
データポータル
GCPで無料に使えるレポーティング・ダッシュボード作成ツールです。取り込めるデータとしては、RDBやBigQueryはもちろんのこと、Google アナリティクスや Googleスプレッドシートが可能です。(連携サービスはこちら)
Looker
Lookerはリアルタイムのビジネス分析を簡単に探索、分析、共有できるビジネスインテリジェンスソフトウェアで、データ分析プラットフォームになります。BigQueryとも連携ができるので、データアナリストには強い味方です。
弊社ではもともとLookerを取り扱っていましたが、20年2月13日にGoogleが買収したので、今後のGCPへの取り込まれ方に期待しています!
予測
予測はデータサイエンティストの分野になります。昨今聞かない日はないキーワードの1つで、AI(マシンラーニング、機械学習)を駆使し、学習モデルを作成することがメインミッションになります。
学習モデルの作成は闇雲に作成しても意味がなく、”使えるデータ”があることと、”関連性の予測”から成り立ちます。もうおわかりだと思いますが、データエンジニアリングとデータアナリティクスと密接に関わってるということがわかります。
正しく作られた(予測の精度がいい)学習モデルは、入ってくるデータから未来を予測することができるので、在庫の適正化や売上予想に使用されます。また、画像判別の学習モデルからは、農作物の規格の適正合否を判別することも可能です。
これらの例のように、余分なものを排除したり、いままで人が判断してきたことを代わりに実行することが可能です。
ここからは、GCPで使用できるAIサービスを紹介します。
BigQuery ML
これまで”BigQueryはDWHだ”と説明してきましたが、BigQueryにはDHWの周辺でよく使用される機能が内包されています。その一つが、BigQuery MLになります。
特徴としては、以下になります。
・DWHであるBigQueryを直接コールできるので、余分なタイムロスがない
・SQLで学習モデルが作成できる(PythonやJavaの知識がいらない)
学習モデルの作成は重く思われがちですが、比較的ライトに学習モデルが作れます。
AutoML
BigQuery MLはライト感がありますが、非構造化データや、独自の学習モデルを作成したい!という場合は以下のサービスが用意されています。
以下の5つがあります。 <公式リンク>
AutoML Natural Language
自然言語処理を担当するMLサービスです。文章の感情分析やどのようなジャンルの文章なのかを判断することができます。
インターネット上の口コミデータを分析し、ネガティブな意見を払拭するために、フィルタリングに使用する、などの利用例が考えらます。
AutoML Translation
皆様もう使用している”Google翻訳”をSaaSで提供されているものになります。RestAPIで使用できますので、自社のサービスに組み込んで翻訳を表示したい場合等に活用できます。
AutoML Video Intelligence
動画内の特定の”オブジェクト(もの)”をトラッキングしてくれるサービスになります。例えば、定点カメラから人の動線を確認したり、交通量の分析にも役立てることができます。
また、そのほかも独自に定義したラベルに従って、シーンの理解ができる学習モデルも作成できます。
AutoML Vision
Video Intelligenceは動画ですが、こちらのVisionは画像の分析ができます。
画像から、”オブジェクト(もの)”の種類や位置情報を取得できます。例えば、サラダの写真から、”トマトは写真の右上にあります”といった情報を取得することができます。
Video Intelligence同様、カスタムの学習モデルも作成できます。例えば、先程例で出した、”農作物の規格の適正合否を判別”がユーザで作成できるサービスになります。ユーザが画像を分類し学習させることで、これまで人が判断しなければいけなかったことを代替できます。
AutoML Tables
BigQuery MLはライトと表現しましたが、AutoML Tablesはより高品質モデルを作成することを担当しています。BigQuery MLで、モデル作成に使用するデータをふるい出すトライアンドエラーを実施し、より精度の高いモデルを作成するのがAuto MLになります。
そのため、データ量にもよりますが、モデルのトレーニングに少なくとも1時間の時間が必要です。
トレーニングの元データは表形式のデータとなります。
その他のAI
上記で上げたマシンラーニング(ML)以外にも、GCPではいろいろなAIがあります。
この記事では、Contact Center AI : CCAIのパッケージのご説明します。CCAIは下記のDialogflowと音声テキスト変換を組み合わせて、AIの音声応答システムを実現しています。
Dialogflow
会話意図を解釈・把握することで適切な内容を選択し回答できるサービスになります。最近良く見かけるWEBサイトの右下に出てくるチャットボットの中のシステムのイメージです。質問と回答をトレーニングさせ、人を介さずに応答できる仕組みになります。
(もちろん対応しきれない場合があるので、対応しきれない場合は有人サポートにつなげる工夫があれば尚いいです。)
音声テキスト変換
音声データとテキストデータを相互に変換するサービス提供されています。
音声→テキストの Speach-To-Text
テキスト→音声の Text-To-Speach
上記2つがDialogflowをはさんで行ったり来たりしてあたかも有人が対応しているように見せているのがCCAIになります。
まとめ
2回にわたり、GCPのデータ分析についてまとめてきました。
今回は、データアナリティクス/サイエンティストを中心に説明をいたしました。
データエンジニアリングが”使えるデータ”にまとめたものを、アナリティクスが可視化・洞察を得て、サイエンティストが学習モデルに応用するという役割分担になります。
今後各GCPコンポーネントの使い方等をまとめていければと思いますが、より詳しい情報は以下のボタンからお問い合わせください。