Technical Blog テクニカルブログ
  1. HOME
  2. テクニカルブログ
  3. <第2回>データカタログに必要な機能をIBM Knowledge Catalogで試してみた!

<第2回>データカタログに必要な機能をIBM Knowledge Catalogで試してみた!

投稿者:大垣 克行

皆様、こんにちは。
NI+C DataOpsチームの大垣です。

前回に引き続き、データカタログに必要な機能をIBM Knowledge Catalog(以降、IKC)で試してみたいと思います。

少し期間があいてしまった為、簡単に前回の投稿を振り返りたいと思います。
前回の投稿では、そもそも「データカタログとは?」、「何故必要なのか?」をChat GPT(2023年11月現在)で確認しました。

■データカタログとは?

  • 組織内のデータに関する情報を収集・管理し、利用者が必要なデータを探す際に参照するためのツール
  • データの種類や属性、所有者、更新日時、アクセス権限などの情報を含める事が可能
  • データの説明や関連リンク、データの信頼性や品質に関する情報も提供
  • データの探索と利用をスムーズにすることで、組織内のデータ活用を促進すること

■データカタログは何故必要なのか?

  1. データの可視化とアクセスの向上
    データカタログは、組織内のすべてのデータの情報を1つの場所にまとめることができます。
    これにより、データを簡単に検索、閲覧、アクセスすることができます。
  2. データ管理の効率化
    データをカテゴリ分けして、検索やフィルタリングを容易にすることで、データの見つけやすさを向上させることができます。
  3. データの再利用性の向上
    データカタログを使用すると、データの検索や分類が容易になります。
    これにより、同じデータを何度も再作成する必要がなくなり、時間の節約と作業の効率化が図れます。
  4. データガバナンスの強化
    データカタログを使用すると、データの一貫性、信頼性、セキュリティなどの側面の管理が容易になります。
    また、データに対するポリシーの遵守や規制への準拠を強化することができます。

これらの理由から、データカタログは組織がデータを効果的に管理し、生産性を向上させるために不可欠です。
データの可視化、効率化、再利用性の向上、データガバナンスの強化を目指す組織にとって、データカタログの導入は非常に重要です。

上述のデータカタログに必要な4つの要素の内、以下の2つをIKCでどのように実現できるのかを試してみました
 1.データの可視化とアクセスの向上
 3.データの再利用性の向上

前置きが長くなってしまいましたが、今回は、前回記載できなかった以下の2つについて、IKCでどのように実現できるのかを試してみました。

 2.データ管理の効率化
 4.データガバナンスの強化

今回も、IKCは、日本アイ・ビー・エムがデータ活用プラットフォームとして提供している「IBM Cloud Pak for Data(以降、CP4D)」のSaaS版(無償版)を使っていきます。
以下の画面がCP4D SaaS版ログイン後のトップ画面になります。

まずは「2.データ管理の効率化」についてです。

データ管理の効率化を実現するためには「データ分類・整理」が必要になります。
例えば、オンラインショッピングで靴を買うとしましょう。
その際、カタログ上に「靴」という情報だけあっても判断できないですよね。
メーカー、色、サイズといった付属の情報がある事で自身が欲しい物なのかを判断すると思います。
データカタログも同じで、データに付属する情報を載せる事で、データ利用者が必要としているデータなのかが判断できるようになります。
なお、判断できないカタログはやがて使われなくなってしまいます。そうならない為にもデータ分類・整理は必要であると私は思っております。

では、IKCではどのように実現できるのか見ていきましょう。

まず、カタログ上に以下の3つのデータを登録しました。

「CREDIT_SCORE」には個人情報となる氏名、住所、メールアドレスの他にクレジットスコア情報のデータになります。

「MORTGAGE_APPLICATIONS」には、住宅ローン申込者のクレジットカード保有枚数、利用額や住宅ローンの有無、融資額のデータになります。

「MORTGAGE_APPLICANTS」は、住宅ローン申込者の個人情報となる氏名、住所、メールアドレス等のデータになります。

カタログ上から該当のデータを見れば、どういうデータなのかを理解する事はできますが、大量のデータがカタログに登録されていたら見つけるまで時間もかかりますし、もしかすると見つけられないといった事もありえますよね。
そうならない為にも、これから実施する事前準備がとても重要になってきます。

さて、事前準備としてはカテゴリー、ビジネス用語、分類を登録して、「CREDIT_SCORE」、「MORTGAGE_APPLICATIONS」、「MORTGAGE_APPLICANTS」のデータに対して紐づけします。

カテゴリー登録
上記3つのデータから、以下のカテゴリーを作る事にします。
 ・クレジット情報
 ・ローン情報
 ・個人情報

では実際にカテゴリーを作成していきます。左側のナビゲーションメニューから「カテゴリー」を選択します。

新規カテゴリーで「クレジット情報」を作成します。
また、以下の画面のように説明を入れておくとより分かりやすくなります。

同様の手順で、「ローン情報」と「個人情報」のカテゴリーも作成します。

次はビジネス用語の登録です。
ビジネス用語は上記3つのデータの各列名に付与する為、誰が見ても分かりやすい用語を意識して登録する事をお勧めします。
ここでは「Number of Cards}という列名が「クレジットカード保有枚数」である事が分かるようにします。
ナビゲーションメニューから「ビジネス用語」を選択します。

以下の画面のように「クレジットカード保有枚数」を作成します。
ここでポイントになるのが、ビジネス用語を作成する際に「カテゴリー」を選択する事です。
「クレジットカード保有枚数」というビジネス用語はクレジット情報に紐づくので、カテゴリーから「クレジット情報」を選択します。

同様の手順で、他のビジネス用語も登録しました。

さて、次は分類です。
この分類機能を使うと、データをより効果的に構造化する事ができます。
また、データが正確に分類される事で、関連するデータを容易に見つける事ができます。

それでは分類を作成します。カタログに登録した「MORTGAGE_APPLICATIONS」、「MORTGAGE_APPLICANTS」は、住宅ローン申請に関するデータになる為、「住宅ローン申請」という分類を作成します。
ナビゲーションメニューから「分類」を選択します。

以下の画面のように「住宅ローン申請情報」を作成します。
分類もカテゴリーを選択する事ができますので、「ローン情報」のカテゴリーを選択します。
また、カテゴリーと同様に説明を入れておくとより分かりやすくなります。

同様の手順で「Confidential」、「クレジット情報」の分類も作成しました。

ここからは登録した「カテゴリー」、「ビジネス用語」、「分類」をカタログに登録した「CREDIT_SCORE」、「MORTGAGE_APPLICATIONS」、「MORTGAGE_APPLICANTS」に割り当てていきます。
※IKCにはAIが自動で「カテゴリー」、「ビジネス用語」、「分類」を割り当ててくれる「メタデータエンリッチメント」という機能がありますが、今回は手動で割り当てます。

カタログ上の「MORTGAGE_APPLICATIONS」を開きます。
まだ何も登録されておりませんので、「ビジネス用語」と「分類」を割り当てます。

+マークを押し割り当てたいビジネス用語にチェックを入れます。
「MORTGAGE_APPLICATIONS」には住宅ローン申込者のクレジットカードの利用額、クレジットカード保有枚数、ローンの有無、ローン額のデータとなる為、以下の4つビジネス用語を追加します。

続いて分類の割り当てになります。
同じく+マークを押し割り当てたい分類にチェックを入れます。
「MORTGAGE_APPLICATIONS」には住宅ローン申請情報、クレジット情報になりますが、Confidentialな情報も含まれる為、以下の3つの分類を追加します。

これで「MORTGAGE_APPLICATIONS」にビジネス用語と分類が割り当てられました。

同じ手順で「CREDIT_SCORE」、「MORTGAGE_APPLICANTS」にもビジネス用語と分類を割り当てました。

長くなってしまいましたが、ここまでが事前準備になります。
ちょっと手間がかかるなと思った方も多いとは思いますが、この手間がどう活きてくるのか、データ利用者視点で確認したいと思います。

データ利用者が、住宅ローン申請者のクレジットカード利用状況を可視化したい為、カタログからデータを探すという例で見てみます。

まずは、CP4Dのトップ画面にある検索バーから「ローン情報 クレジット情報」と入力して検索してみます。

検索結果が表示されるので、下記画面左側のフィルターから「データ」と変更日時を「過去7日間」を選択して適用します。

2件のデータがヒットしました。
このように検索で簡単にヒットしたのも事前準備でカテゴリー、ビジネス用語、分類を登録していたからです。
では、「MORTGAGE_APPLICATIONS」を見てみます。

MORTGAGE_APPLICATIONSには、ローンの有無や、保有するクレジットカード枚数や利用額のデータが入ってるという事が直感的に分かりますね。

ただ、MORTGAGE_APPLICATIONSにはIDは登録されているけど、配偶者の有無とかどの地区に住んでいる人なのかがわからないので、分類を確認してみる事にします。

分類を開いた際に、以下の画面のように説明文が記載されていると、こういうデータが入ってるんだなというのが分かりますね。

それでは、関連コンテンツを見てみます。
すると「MORTGAGE_APPLICANTS」の住宅ローン申込者が見つかりました。

実際に開いてみるとまさに欲しいデータ(配偶者の有無とかどの地区に住んでいるのかが分かる)見つかりました!

このようにカテゴリー、ビジネス用語、分類を登録してカタログのデータに割り当てる事で、データ利用者自身が必要とするデータをキーワード検索を使って自由に検索して発見する事ができますし、新しい気づきを得る事ができます。
データ提供者・利用者が相互にカタログを有効活用してもらう為には、最初は少し面倒であってもデータをカタログに登録するだけではなくカテゴリー、ビジネス用語、分類を作成して紐づけておく事でカタログ利用が活性化するだけではなく、データ管理の効率化に繋がると感じました。

さて、次は「4.データガバナンスの強化」について確認してみましょう。

データガバナンスというとすごく広い範囲が対象となってきますが、最も重要な要素として個人情報や機密情報の漏洩を防ぎセキュリティを担保する事ではないでしょうか。
IKCでは、どのようにセキュリティを担保する事ができるのか確認してみましょう。
IKCには、データ保護する為のポリシー/ルールを設定する事ができます。
サンプルとして個人情報を保護するポリシー/ルールを作成してました。

まずは、複数のルールを管理するポリシー(Protection policy)を作成します。

続いてポリシー(Protection policy)の中に入れるルールを作成します。
今回は、列名にEMAIL_ADDRESSが存在する場合は値をマスキングするというルールを作成しました。

これでポリシー/ルールを作成する事ができました。
なお、このポリシー/ルールは作成したカタログに適用されます。
つまり、Test_Catalogに登録されたデータはポリシー/ルールが適用され、データの中に列名としてEMAIL_ADDRESSが含まれている場合は全てマスキングされる事になります。

では、ポリシー/ルール適用後にどのように表示されるのかを確認する前に、どのようなユーザに対しマスキングされるのかを説明します。

本記事では、使用するカタログとしてTest_Catalogを使用しておりますが、カタログ単位でアクセス権を設定する事ができます。
以下の画面がTest_Catalogに対するアクセス権限の設定画面になります。
役割(ロール)は以下の3つから選択する事ができ、管理者以外のエディター、ビューアーに登録されているユーザに対しては、マスキングされて表示されます。

役割(ロール)
 ・管理者
 ・エディター
 ・ビューアー

実際にビューアーのユーザでTest_Catalogにアクセスしてみます。
ポリシー/ルールが機能しEMAIL_ADDRESSがマスキングされて表示されます。
なお、データをローカル上にダウンロードする際もマスキングされた状態でダウンロードされる為、個人情報や機密情報漏洩防止にも繋がります。

このようにポリシー/ルールでマスキングする事で、仮にデータソース側でマスキング忘れてしまったとしても、IKC側で対応してくれるので、データガバナンスで最も重要な要素である個人情報や機密情報の漏洩を防ぎセキュリティが担保された状態でデータ利活用する事ができますね。

まとめ

さて、2回にわたってカタログの必要な要素となる、4つの要素ついてIKCを使って確認してみました。
 1.データの可視化とアクセスの向上
 2.データ管理の効率化
 3.データの再利用性の向上
 4.データガバナンスの強化
私個人の感想にはなりますが、IKCでは、上記の要素を満たすカタログツールであると感じました。
その理由は以下となります。

  • ビジネス用語や分類を登録しカテゴリー化する事でデータ管理を効率化するだけではなく、データ利用者から見ると必要なデータを容易に見つけることが可能
  • データの詳細が可視化され、必要としているデータであるか容易に判断可能
  • データのプロファイル機能やレビュー機能もあるので、高評価のデータが登録されているとデータの再利用性向上にも繋がり、データ活用の更なる活性化、生産性向上にも繋がる
  • データを自由に確認できる状況であっても、個人情報、機密情報の漏洩防止しセキュリティを担保してデータ利活用する事が可能

このようなカタログがあると、今まで「システム部門」や「データ管理部門」へ都度、必要となるデータを依頼するという、ちょっと面倒な手順が減ります。
まさに、買い物をするようにカタログを見て、データを依頼する理想の形になりますよね。

なお、今回ご紹介できなかったメタデータエンリッチメントについては、別の機会にご紹介したいと思います。

最後までご覧頂き、ありがとうございました。

ページのトップへ