投稿者:中根 洋平

Data Science at Scale with R on GCP

皆さま、こんにちは。 Next'19に参加しています中根です。

参加したセッションの内容や雰囲気について簡単にお伝えしたいと思います。
今回はData Science at Scale with R on GCPです。

実はこのセッション今回数あるセッションの中で私が一番楽しみにしていたセッションでもあります。
皆さまはデータ解析を行う時に利用される言語はなんでしょうか?
肌感覚としてPythonは多いのかなと感じていますし、実際GCP上ではPythonやJupyter Notebookが標準ですね。
R派の私としてはこのセッションは非常に気になるところです。

概要

このセッションでは機械学習用LibraryとしてTensor Flow、Spark、それ以外のLibraryのパターンについて解説をしていました。
各章ごとにデモもありサクサク進むセッションでした。
デモではJupyterやZeppelinを使用したステップバイステップの説明がありました。
ノートブック内ではrpy2を使用していますのでもちろんRです。
使用された一部のノートブックについてはスピーカーのMikhail ChrestkhaさんのGithubにアップされていますので気になる方は確認してみてはいかがでしょうか。

Spark

Sparkを使用する場合RではSparkRsparklyrの2つが選択肢になるかと思います。
普段R Studioを使用することが多い方ですとsparklyrから使用することが多いと思います。
一方GCP上でSparkを使用する場合dataprocになるかと思います。ジョブタイプから選択できるのはSparkRですね。
mlai214_002.PNG

セッション内では素敵なmemeと一緒に紹介されていましたがSparkRtidyverseのコンフリクトには気をつけなければいけないですね。
mlai214_001.jpg

Datalab

こちらはセッション内ではなくQAにて気になる質問がありました。
DatalbaでRが使用できるようにならない?という内容でしたがどうやら現在アーリーテストをしているとのことです。
こちらも非常に期待しています。

GCP MarketplacesのR Studioライセンスについて

こちらもQAです。R StudioはMarketplaceにありますがもちろんPro版ですのでお値段もProプライスです。(推定$2000/月)
ご存知のかたもいらっしゃると思いますがライセンスは時間単位なので推定$3/時間ぐらいになります。

いかがでしたでしょうか。
それではまた次のブログでお会いしましょう。

参考リンク

R Interface to TensorFlow
Announcing the beta release of SparkR job types in Cloud Dataproc
AI Platform Using containers on AI Platform
Kubeflow Seldon Serving
スピーカーであるMikhail ChrestkhaさんのGithub