投稿者:金子

最近、よく耳にするAIを活用したデータ分析やDXを推進する企業はとても増えてきています。 しかし、 「社内で眠っているデータを活用し売上向上や業務の効率化を目指したいけれど、何から手を付ければ良いか分からない」や「やりたいことはあるのにデータの準備ができていない」というデータ活用のファーストステップであるデータ準備にとても苦労されている企業も多いのではないでしょうか。 私が担当しているIBM Cloud Pak for Data(以下略:CP4D)というソリューションが正にこういった課題に対応しているので、具体的にどの様なことが実現できるのかご紹介しようと思います。

 目次
 1.CP4Dって何?
 2.データカタログについて
 3データカタログ機能の確認
 4.まとめ

 

1.CP4Dって何?

まずは、CP4Dがどういった製品なのか簡単に説明したいと思います。

image (45).png

IBM社ではデータ活用を実施する為には次のプロセスを段階的に進める事が重要であると位置づけており、CP4Dはこれらの機能をオールインワンで提供する事によって一連のプロセスの簡素化・自動化を実現します。(詳細はこちら
 ・データの収集
 ・データの整備
 ・データの分析、AIへの活用

今回は各プロセスと密接な関係があるエンタープライズ・データカタログ(以下:データカタログ)機能に焦点を当ててご紹介します。

2.データカタログについて

データカタログはデータ資産(*1)とビジネス用語(*2)に代表されるガバナンス成果物を管理します。
 (*1)・・・データ資産:組織が保有するあらゆるデータのことです
 (*2)・・・ビジネス用語:組織で利用される用語の意味と用途を定義するものです
これらを紐づけることによってユーザは必要なデータを容易に見つけ、データの準備・理解・利用できるようになります。
例えば、データのファイル名やカラム名だけ見ても中身が想像つかないとき、ビジネス用語と紐づいていればどのようなデータなのかが分かりやすいですよね。
CP4Dではこのようなカタログを作るためにデータ利用者・提供者がコラボレーション可能なプラットフォームを提供しています。

以下はCP4Dが提供する実際のWebユーザ・インターフェースで、データ利用者、データ提供者共にこの画面から操作出来るようになっています。

image (37).png

3.データカタログ機能の確認

今回、自分が工場の不良品に関する分析を実施するデータ利用者であると仮定して、分析に必要なデータを簡単に見つけられるかをご紹介します。

CP4D右側上部の検索窓では、CP4Dで管理されているデータ資産やビジネス用語をキーワードで検索し探すことが可能です。
今回は不良品に関するデータを見つけたいので、キーワードに「不良品」と指定して検索してみます。

image (36).png

検索結果が表示されるので、この中のビジネス用語「不良品」を確認してみます。

image (35).png

ビジネス用語を管理しているページでは、用語の説明(意味)、カテゴリー等の情報が確認できます。
カテゴリーは、エクスプローラーのフォルダのような存在です。
(もし、ロボットに関する情報が必要だった場合、1次カテゴリーのロボットからデータを探すことが可能です。)

用語の説明から今回自分が意図している不良品と同じ意味合いを持っているビジネス用語であることが確認できました。
次に関連コンテンツタブからデータ資産の一覧が確認できるので、具体的なデータを見ていきたいと思います。
(私は英語が苦手なので日本語のビジネス用語が英語のファイル名に紐づいていると、どのようなデータなのか分かりやすくなりとても助かります。)

image (34).png

試しに「DEFECTIVE_PRODUCT_LIST.csv」というデータ資産をピックアップしてデータの中身を確認してみます。

image (38).png

データ資産の管理ページでは、対象資産の追加日やフォーマット、サイズといった情報や、関連付けられているガバナンス資産を確認できます。 説明を見てみると「不良品に関する情報一覧」と記載されており関連がありそうです。
早速、資産タブからデータのプレビューを見てみましょう。

image (32).png

分析業務に活かせそうな製品名、製造ライン、数量などのカラムがあることを確認できましたが、データの品質が気になるのでプロファイルタブから参照してみます。

image (29).png

確認するとカラムに想定外の値(NULL、空白文字、数値項目に文字列など)はなさそうだったので、分析業務に活用できそうであることが分かりました。

4.まとめ

データカタログ機能を利用してデータとビジネス用語を紐づけることで、必要なデータを探しやすく、手軽にデータの準備やデータの用途・品質が理解できるのでデータ準備に要する時間が短縮されます。
今回は、データカタログ機能に焦点を当ててご紹介しましたが、CP4Dには他にもデータ活用に欠かせない様々な機能があるので 別の記事でご紹介しようと思います。