<第1回>データカタログに必要な機能をIBM Watson Knowledge Catalogで試してみた!
投稿者:大垣 克行
皆様、こんにちは。
NI+C DataOpsチームの大垣です。
今回は、データカタログについて書いてみたいと思います。
多くの企業様でデータ活用に取り組まれていると思いますが、データのカタログ化も進めてるという企業様は意外と少ないのではないのでしょうか。
そもそも「データカタログとは?」、「何故必要なの?」と思う方もいらっしゃると思いますので、
流行りのChat GPT(2023年7月現在)に、データカタログとは何なのか、何故必要と言われているのかを聞いてみました。
以下は、Chat GPTの文書を簡略化して記載しております。
■データカタログとは?
- 組織内のデータに関する情報を収集・管理し、利用者が必要なデータを探す際に参照するためのツール
- データの種類や属性、所有者、更新日時、アクセス権限などの情報を含める事が可能
- データの説明や関連リンク、データの信頼性や品質に関する情報も提供
- データの探索と利用をスムーズにすることで、組織内のデータ活用を促進すること
■データカタログは何故必要なのか?
- データの可視化とアクセスの向上
データカタログは、組織内のすべてのデータの情報を1つの場所にまとめることができます。
これにより、データを簡単に検索、閲覧、アクセスすることができます。 - データ管理の効率化
データをカテゴリ分けして、検索やフィルタリングを容易にすることで、データの見つけやすさを向上させることができます - データの再利用性の向上
データカタログを使用すると、データの検索や分類が容易になります。
これにより、同じデータを何度も再作成する必要がなくなり、時間の節約と作業の効率化が図れます。 - データガバナンスの強化
データカタログを使用すると、データの一貫性、信頼性、セキュリティなどの側面の管理が容易になります。
また、データに対するポリシーの遵守や規制への準拠を強化することができます。
これらの理由から、データカタログは組織がデータを効果的に管理し、生産性を向上させるために不可欠です。
データの可視化、効率化、再利用性の向上、データガバナンスの強化を目指す組織にとって、データカタログの
導入は非常に重要です。
このように、Chat GPTでもデータカタログはとても重要であると回答されます。
前置きが長くなってしまいましたが、今回は、日本アイ・ビー・エムが提供しているデータカタログソリューションの、「IBM Knowledge Catalog(以降、IKC)」を使って、上述のデータカタログに必要な4つの要素の内、以下の2つについて、どのように実現できるのかを試してみました。
1.データの可視化とアクセスの向上
3.データの再利用性の向上
残る2.4.については、次回に記載します。
なお、IKCは、日本アイ・ビー・エムがデータ活用プラットフォームとして提供している「IBM Cloud Pak for Data(以降、CP4D)」上で利用することができます。今回は、SaaS版を使っていきます。
以下の画面がCP4D SaaS版ログイン後のトップ画面になります。
早速、IKCを使って、データカタログが必要とされる要素をどのように実現できるのかを見てみましょう。
今回は、データ利用者が、データカタログで欲しいデータを見つけるという観点で触ってみます。
カタログへアクセス
IKCのカタログは以下の画面のように表示されます。
カタログの一覧が表示され、「誰が」、「いつ」作成したカタログかが分かるシンプルな画面ですね。
ここでは、テストで作成した「Test_Catalog」を開いてみます。
今回は、このブログ用として「Test_Catalog」という名前にしていますが、カタログを共有する部門名など、用途に沿って、カタログ名を設定すると、より分かりやすくなります。
このカタログには登録されているデータ(テーブル)だけではなく、データソースの接続情報も見る事ができますので、「データの可視化とアクセスの向上」、「データの再利用性の向上」に繋がりますね。
なお、カタログへのアクセス対象ユーザーは、アクセス制御でコントロールすることが出来ますので、誰に、どのようなロールを付与するかを簡単に設定することができるのも良いですね。
カタログに登録されているデータを確認
それでは、もっと詳細を見てみましょう。実際にカタログに登録されているデータ(テーブル)をチェックしてみます。今回は「MORTGAGE_APPLICATIONS」を見てみます。
なお、「MORTGAGE_APPLICATIONS」には住宅ローン申請者情報が登録されているテーブルになります。
「MORTGAGE_APPLICATIONS」の詳細な情報が表示されます。
概要タブでは、列名、ビジネス用語、データ・クラスを確認する事ができます。
また、列名に対し、ビジネス用語が付与されているので、IT部門の方でなくても、
どのようなデータが入っているのか。イメージ付きやすいのもポイントですね。
さて、今度は資産タブを見てみましょう。
資産タブでは、「MORTGAGE_APPLICATIONS」のデータそのものが見る事ができます。
サンプルとして1,000行の表示となりますが、これならデータ活用者が見た時に、どのようなデータなのかを簡単に理解する事ができますね。
次は、プロファイルタブです。
プロファイルタブでは、「MORTGAGE_APPLICATIONS」のデータの統計を確認する事ができます。
概要タブ、資産タブと合わせて確認する事で、データ活用する方が、このデータは自身が必要としているデータなのかを総合的に判断する事ができますね。
最後にレビュータブを見てみましょう。
レビュータブには、「MORTGAGE_APPLICATIONS」に対するレビュー結果が表示されます。
このデータを使った人たちが、レビューコメント・評価を入れる事で、次に確認した人が参考にする事ができますし、評価が高ければ、何気なく見た人も「お、このデータ使えるかも!」という新しい発見に繋がる可能性もありますね。
なお、IKCの便利な機能としては、容易にデータを検索できるという点があります。
例えば、「ローン」に関するデータを確認したい場合、CP4Dの検索画面で「ローン」と入力すると、カタログに登録されたローンに関するデータを確認することができます。
まとめ
ここまで、カタログの必要な要素となる、4つの内、以下の2点についてIKCを使って確認してみました。
1.データの可視化とアクセスの向上
3.データの再利用性の向上
私個人の感想にはなりますが、IKCでは、上記の要素を満たすカタログツールであると感じました。
その理由は以下となります。
- ビジネス用語や検索機能により、データ利用者から見ると、必要なデータを容易に見つけることが可能
- データの詳細が可視化され、必要としているデータであるか容易に判断可能
- データのプロファイル機能や、レビュー機能もあるので、高評価のデータが登録されていると、データの再利用性向上にも繋がり、データ活用の更なる活性化、生産性向上にも繋がる
このようなカタログがあると、今まで「システム部門」や「データ管理部門」へ都度、必要となるデータを依頼するという、ちょっと面倒な手順が減ります。
また、自身でカタログをチェックしてから、このカタログのデータを下さいという依頼のみで済みますし、依頼されたデータ提供者もスムーズに対応できます。
まさに、買い物をするようにカタログを見て、データを依頼する理想の形になりますよね。
次回は、データカタログの必要な要素の以下の2つについてIKCで確認した結果を書いてみます。
2.データ管理の効率化
4.データガバナンスの強化
最後までご覧頂き、ありがとうございました。