Google Cloud Next’19速報 ~Data Science at Scale with R on GCP~
投稿者:中根
Data Science at Scale with R on GCP
皆さま、こんにちは。
Next’19に参加しています中根です。
参加したセッションの内容や雰囲気について簡単にお伝えしたいと思います。
今回はData Science at Scale with R on GCPです。
実はこのセッション今回数あるセッションの中で私が一番楽しみにしていたセッションでもあります。
皆さまはデータ解析を行う時に利用される言語はなんでしょうか?
肌感覚としてPythonは多いのかなと感じていますし、実際GCP上ではPythonやJupyter Notebookが標準ですね。
R派の私としてはこのセッションは非常に気になるところです。
概要
このセッションでは機械学習用LibraryとしてTensor Flow、Spark、それ以外のLibraryのパターンについて解説をしていました。
各章ごとにデモもありサクサク進むセッションでした。
デモではJupyterやZeppelinを使用したステップバイステップの説明がありました。
ノートブック内ではrpy2を使用していますのでもちろんRです。
使用された一部のノートブックについてはスピーカーのMikhail ChrestkhaさんのGithubにアップされていますので気になる方は確認してみてはいかがでしょうか。
Spark
Sparkを使用する場合RではSparkR
とsparklyr
の2つが選択肢になるかと思います。
普段R Studioを使用することが多い方ですとsparklyr
から使用することが多いと思います。
一方GCP上でSparkを使用する場合dataproc
になるかと思います。ジョブタイプから選択できるのはSparkR
ですね。
セッション内では素敵なmemeと一緒に紹介されていましたがSparkR
とtidyverse
のコンフリクトには気をつけなければいけないですね。
Datalab
こちらはセッション内ではなくQAにて気になる質問がありました。
DatalbaでRが使用できるようにならない?という内容でしたがどうやら現在アーリーテストをしているとのことです。
こちらも非常に期待しています。
GCP MarketplacesのR Studioライセンスについて
こちらもQAです。R StudioはMarketplaceにありますがもちろんPro版ですのでお値段もProプライスです。(推定$2000/月)
ご存知のかたもいらっしゃると思いますがライセンスは時間単位なので推定$3/時間ぐらいになります。
いかがでしたでしょうか。
それではまた次のブログでお会いしましょう。
参考リンク
R Interface to TensorFlow
Announcing the beta release of SparkR job types in Cloud Dataproc
AI Platform Using containers on AI Platform
Kubeflow Seldon Serving
スピーカーであるMikhail ChrestkhaさんのGithub