あらゆるタイプのデータを統合する高機能ETLツール。
ソース・システムからのデータ抽出、データ加工・変換、データロードを並列処理により高速に実行しますIBM InfoSphere Information Server (DataStage)

ビジネス・ユーザーが、自ら分析目的にあったデータを探し、入手し、分析/活用できる、セルフ・アナリティクスの実現をサポートします




  • 3つの特徴

  • 導入事例

  • Q&A

特徴1 高い開発生産性 < 迅速なシステム開発/開発コストの削減 >


◆データフローや処理内容が視覚的にわかりやすく、開発生産性、保守生産性を向上させ、短期間で開発スキルの習得も可能

datastage1.png





◆予め利用可能なモジュールや関数を非常に豊富に提供しているため、手作りプログラミングによる追加開発を削減

datastage02.png

*100種類以上のコンポーネントと400以上の組み込み関数
・カラム分割/追加などのりフォーマット
・計算、フォーマット編集、文字列操作、単位刊変換、日付変更
・条件式による判定処理
・他テーブルとのマッチング処理
・Netezza/Hadoopにも対応




◆(参考)DataStage VS ハンドコーディング

 
DataStageによる開発
ハンドコーディングによる開発


開発手法の標準化 ・共通ツール、共通ロジックで開発
・システム連携手法の統一化が可能

・プログラムが担当者の好み、くせに左右される
・メンテナンスの負荷が高くなる場合がある
開発生産性 ・開発生産性の向上
・チーム設計、関数・ジョブの共有・再利用性の向上     
・テスト工数、バグ発生時の出戻り工数の削減

・プログラマスキルに起因する品質の分散が増加
データ規模と処理の複雑度       ・超高速パラレル処理の実現
・限られた時間に大量の複雑なデータ変換が可能

・複雑な処理がデータ量のどちらかを妥協
メタデータ管理 ・メタデータ管理の実現
・法律への準拠(データ監査証跡)

・メタデータ共有の欠如
・プログラムごとにメタデータを再確認、再入力
運用コスト ・運用人員の削減
・追加仕様、気ぞの使用変更がしやすい

・運用人員の増大
・複雑化する仕様への対応負荷増大
・優秀なプログラマーの継続的な確保が必要









特徴2 高い保守管理性 < 仕様変更への柔軟な対応 >


◆データ項目等の変更時の影響範囲を迅速に把握することが可能

datastage3.png

RDBのカタログ情報やCSVファイルの列定義情報、Cobolのコピー句等をメタデータとして取り込み、データマッピング定義にて再利用することが可能です。




◆処理フローのスナップショットや、定義されたパラメーターを含むジョブのレポートをHTML形式で出力
datastage03.png

プログラム設計書の作成負荷を軽減。ユーザー定義のスタイルシートの適用や、コマンドラインからのレポートの出力も可能です。












特徴3 高いパフォーマンス・スケーラビリティ


◆扱うデータ量に応じ、指定ノード数を変更するだけで、柔軟に並列数を変更することが可能

datastage04.png
パラメーター設定により、ハードウェア拡張時にもジョブの回収を行う必要がありません。





◆独自のパラレル処理機構により高速処理を実現

datastage05.png

datastage06.png
パーティショニング処理は米国内で複数の特許を取得している独自の機能で、限られたバッチ時間内の大量データ処理に最適です。





◆「Balanced Optimization」機能により、処理をデータベース側に集約。データベース性能の活用とETLサーバーの負荷を軽減

datastage07.png

ETLツールでは処理を可視化するためにコンポーネントを配置して処理フローを作成します。作成したジョブはETLサーバー上で実行されますが、「Balanced Optimization」機能により、処理をデータベース側に集約することで、データベース性能の活用とETLサーバーの負荷を軽減することが可能です。

Case1:データマイニング/キャンペーン管理   **マツモトキヨシホールディングス様

Q1:接続できるデータ・ソースを教えてください。

お客様の業務課題に応じ、さまざまなソリューションの中からベストな組合せで、ご提案をさせていただきます。お困りのことがございましたらお気軽にお問合せください。