投稿者:SASソリューション担当

こんにちは。NI+C SASソリューションチームです。
本Blogでは、SASの最新プラットフォームSAS Viyaを中心に、NI+Cで扱っているSASソリューション及びSASナレッジをご紹介していきます!
第2弾は、新入社員がSAS Viyaを使用してみて、便利に思った機能などを紹介したいと思います。
今回は「viya_2021.1.4」の環境を使用しています。

第2弾では、わたし、2021年度新卒新入社員が「SAS Information Catalog」についてご紹介します。

目次
 1,SAS Information Catalogとは?
 2,実際に使ってみよう!
  2-1,検索してみる
  2-2,中身を覗いてみよう
   2-2-1概要
   2-2-2,列の分析
    ①記述メジャー
    ②メタデータメジャー
    ③Date Quality
   2-2-3,サンプルデータ
  2-3,このデータを使ってみよう
 3,まとめ
 4,次回予告

1,SAS Information Catalogとは?
Information Catalogは、ファイル、テーブル、およびその他のViyaオブジェクトなどのメタデータがカタログ化され、ビジネスに必要な情報を即座に検索し、活用することができます。探したいワードを検索することで関連性のある情報を探して活用することができるアプリケーションです。
実際に使ってみましょう!

2,実際に使ってみよう!
SAS Information Catalogはサイドメニューバーの「情報アセットの検出」からアクセスすることができます。

2-1,検索してみる
1.png
(拡大表示)
こちらがSAS Information Catalogのトップページです。
上部のボックスにキーワードを入力することで検索を行うことができます。
また、お気づきかもしれませんが、トップページから最近使用したアイテムやお気に入りに登録したアイテムにも簡単にアクセスすることができるのです。

今回は店舗の売上を伸ばすために分析をすると仮定して、売り上げを意味する「Sales」という単語で検索してみましょう!

何件かヒットしましたね!
2.png
(拡大表示)
ここで最初に注目したいのが「ステータス」です。

ステータスはユーザーが設定できるもので全5種類あります。

2-1.png

レビュー

レビュー中

2-2.png

承認

使用可能

2-3.png

フラフ設定済み

ユーザーによって取り扱いに注意とされているもの

2-4.png

警告

現在の条件で使用しない

2-5.png

なし

ステータスで設定がされていません(デフォルト)

今回はステータスが「承認」になっている「RETAIL_HANDSON」のデータを見てみましょう!

2-2,中身を覗いてみよう
データをクリックするとより詳しい内容を見ることができます。
3.png
(拡大表示)
上部にはデータの列、行、サイズ、安全性、それからステータスを確認することができます。
ここでの安全性とは、データ全体での欠損値の割合を示しており、パーセントが高いほど欠損値が少なく、疎ではなく、密なデータであることを示しています。
そして「概要」「列の分析」「サンプルデータ」の各タブでより詳細な情報が分かります。

2-2-1,概要
コンテンツ概要では、ビジネス説明や顧客などのプライバシーに関する情報の有無など、どのようなデータなのかを知ることができます。
ビジネス説明からはこのデータは店舗売り上げの分析に使用できるということが分かります。
ただ、このビジネス説明は事前にユーザーが入力しておく必要があり、今回は私が前もって入力しておきました。
履歴では、データ量の変化が確認することができます。このデータは4,000件ほどデータが増えたようですね。
4.png
情報プライバシーではデータ内にプライバシー情報の有無が確認できます。今回はプライベートになっており、顧客の年齢や誕生日のデータが入っているが理由です。

2-2-2,列の分析
ここでは、「記述メジャー」、「メタデータメジャー」、「Date Quality」の3つを確認することができます。

①記述メジャー
5.png
(拡大表示)
変数名を確認できるだけでなく重複してない値の数が分かります。
更に、数値データであれば最大値や最小値、平均値や標準偏差などの統計情報も確認することが可能です。
また、気になる変数をクリックすることによって、画面左の「列のプロパティ」から列の基礎集計を見ることが可能です。
この基礎集計は変数ごとに自動で行われているため、ユーザーがデータを弄らずとも確認することができます。

②メタデータメジャー
6.png
(拡大表示)
変数ごとの長さなどが確認できるほかに、変数にプライバシーに関係ありそうなものが自動判別され、中身を確認せずとも確かめることができます。
ageとbirth_dateがプライベートになっているため、「概要」を見た際にプライバシーとついていたのです。

③Date Quality メジャー
7.png
(拡大表示)
変数ごとに完全性が確認できるため、どの変数が密なのか分かるだけでなく、一意性を確認することで、ユニークデータかどうかといった事まで、データの中身を見なくても簡単に判別することができます。

また、気になるデータをクリックすることによって、より詳しい内容も個別に確認することができます。
数値変数とカテゴリー変数では見え方に若干の違いがあります。今回は数値変数のsalesとカテゴリー変数のregionを見てみました。
【数値変数であるsalesの場合】
10.png

【カテゴリー変数であるregionの場合】
9.png

2-2-3,サンプルデータ
11.png
(拡大表示)
名前の通りデータの中身を確認することができます。
デフォルトでは100件しか見ることができませんが左上のサンプル行の値を変えることによって表示されるデータ量を変更することが可能です。

2-3,データの活用へ
12.png

データの中身について確認することができたので、実際に活用するためには「アクション」ボタンから様々な機能にアクセスすることができます。
探したデータは「アクション」ボタンで簡単に活用することができます。
例えば探索とビジュアル化でレポートを作成や、モデルの作成でデータマイニングによる分析が可能です。
次回は、今回中身を確認したデータを使用して探索とビジュアル化のSAS Visual Analyticsを使ってレポートを作成したいと思います。

3,まとめ
いかがだったでしょうか。SAS Information Catalogの魅力が伝わりましたか?
最後に今回紹介したSAS Information Catalogで出来ることを簡単にまとめます。

  • 探したいワードを検索することで簡単にメタデータを見つけることができる。
  • 中身を見ずにプライバシー情報を含んでいるデータなのかを確認することができる。
  • データ量の概要や更新変化が一目でわかる
  • データを弄らなくても変数ごとの基礎集計が自動でされており確認することができる。
  • アクション」ボタンから簡単に次の作業に移ることができる。

大容量のデータから目的のデータを探し出すには非常に便利です。
以上、新入社員とSAS Viya 【Information Catalog編】でした。

4,次回予告
次回はSAS Visual Analyticsというレポーティングツールを使用して新入社員の私が実際にレポートを作成します。
SASソリューションやSAS Viyaにご興味頂いた方は、お気軽にぜひ「こちら」からお問い合わせください。

次回もお楽しみに!
御覧頂き、ありがとうございました!