watsonx.data Beta()版を触ってみた。(：2023年7月7日に正式版リリース済)

投稿者：ビッグデータ担当

■はじめに

リリース前のbeta版(2023年5月時点のBeta(*)版)となりますので、リリース版とは画面や機能が異なる可能性があります。

*：2023年7月7日に正式版リリース済(URL： https://www.ibm.com/jp-ja/products/watsonx-data )

■watsonx.dataとは？

すべてのデータ、分析、AI ワークロードを拡張するために最適化された、オープンでハイブリッド、かつ管理された目的に適したレイクハウスとなります。

レイクハウスといっても、他にもウェアハウスやデータレイク等の似たような製品もあり、何が違うのかイマイチ。。という方々のためにも、簡単にそれぞれの概要を紹介いたします。

ウェアハウス：

csv等の構造化されたデータを蓄え、且つ分析系(select)の処理に特化したデータベース。分析系の処理ではカラム単位の集計処理が多くなるため、ウェアハウスではカラムナー型の製品が主流となります。

データレイク：

csv等の構造化されたデータに加えて、半構造化データ(xml、json等)や非構造化データ(テキスト、画像、動画等)もすべてまとめて保存するものとなります。これにより、AI/MLを使用した分析等もできるようになります。しかし、正しく運用ができない場合、様々なデータをとりあえず入れる領域となり、データスワンプ化してしまう場合があります。

レイクハウス：

ウェアハウス、およびデータレイクの良いところをハイブリットすることにより、それぞれに蓄えられたデータを統合的に分析することができるオープンアーキテクチャとなります。

■watsonx.dataのユースケースは？

それではwatsonx.dataはどのようなケースで使用できるかを簡単にご紹介します。

コストを最適化したいお客様は、watsonx.dataへのオフロードによりコスト最適化が可能です。

ウェアハウスを利用している際に陥りやすいこととして、分析頻度の少ないデータもウェアハウスにとりあえずロ　ードしているケースはよく見かけます。しかしウェアハウスは高速処理に特化しておりますが、データ容量当たりの課金が高いです。このようなデータについては安く格納できるストレージにオフロードして、watsonx.data上の様々なエンジンを使用することで分析処理に対するコストを最適化することができます。

複数のウェアハウスをお持ちとなり管理や運用にお困りのお客様は、watsonx.dataで利活用できます。

社内に複数のウェアハウスがあり、これらのウェアハウスを統合的に分析したい際にはwatsonx.dataを利用することで既存のシステムに変更を与えることなく、複数のウェアハウスのデータを組み合わせた分析等ができるようになります。

複数ベンダーのデータレイクをお持ちとなりベンダー間の管理や運用にお困りのお客様は、watsonx.dataで垣根を無くすことができます。

データレイクはベンダー毎に様々な製品が存在し、AWSのS3、GCPのクラウドステージ、IBMのオブジェクトストレージ等があります。しかしこれらの製品は機能によっては同じベンダー環境のデータ間でしか分析できないケースがあります。そのような場合ではwatsonx.dataを利用することで、ベンダー間の垣根を無くしデータを柔軟に取り扱うことができます。