クラウドではじめるデータマネジメント
データカタログがデータの民主化とデータ活用高速化を実現
データカタログがデータの民主化とデータ活用高速化を実現
本コンテンツは、当社が執筆している日経クロステック記事「実践DX、クラウドで始めるデータマネジメント 第13回「メタデータ管理の全体像、データカタログを活用して効率化」の内容を一部要約しつつ独自コンテンツを加えたものです。日経クロステック記事の全文はこちらをご覧ください。
目次
本記事では、メタデータ管理の基礎知識とデータカタログの活用メリットについて説明します。メタデータ管理はデータ活用に深いかかわりを持ち、その成否がデータの民主化の進展に影響します。メタデータ管理を実現するデータカタログのコンセプトと役割を理解して、目的に合った導入を検討するためのポイントについて触れます。
メタデータとデータカタログの基礎知識
メタデータとは? ビジネスメタデータとテクニカルメタデータ
「メタデータ」は、データ自体の内容や構造、意味を説明するためのデータです。これには主に2つのカテゴリがあります。
1つ目は、「ビジネスメタデータ」で、人が理解しやすい形でデータの内容や用途、ビジネスコンテキストに関する情報を提供します。たとえば、データが何を表しているのか、どのビジネスプロセスに関連しているのかといったの説明が含まれます。
2つ目は、「テクニカルメタデータ」で、データがどのように格納、管理されているか、データモデルやデータベーススキーマ、ファイル形式など、データを実装する環境に関する詳細な技術情報を記述したものです。これにより、システム間でのデータの統合や交換、データ管理の自動化が容易になります。
メタデータの種類
カテゴリー | 項目 | 内容 |
---|---|---|
ビジネスメタデータ | 名称 | データの内容を業務用語で表した名称 |
説明 | データの内容を人が読んでわかるように記述した説明文 | |
データソース | データの来歴を示す情報。派生データがどのデータセットを元にしているかなどを記述する | |
データ分布 | 実データの分布。最大・最小値、平均値、ユニークな値の数など、データの特徴を大づかみで理解できる情報 | |
オーナー | データの所有者。ビジネスメタデータは原則としてオーナーが管理する | |
タグ、ラベル | 個人情報、売上実績など、データセットの種類を示す情報 | |
用途 | どのような利用に適しているかを説明、例示した情報 | |
コメント | データセットの利用者からのフィードバックコメント。「いいね」の数など | |
テクニカルメタデータ | 名称 | ストレージやデータベースに配置する際のオブジェクトやカラムの名称。実装環境上で識別しやすい名称とする |
データ型 | 文字列、整数、日付など。表現形式(日付:2023年07月20日、など)の指定 | |
キー情報 | データを一意に表すキーの情報 | |
制約 | データが取りうる値や範囲についての条件。例)NULL値を許容しない。0,1のいずれか | |
アクセス権 | ユーザ、ロールに付与されている参照、更新の権限 |
ビジネスメタデータ+仮想化でスピーディーに探索型データ分析
ビジネスメタデータは、データ分析プロセスで利用されます。第9回で説明した探索型分析では、新しいインサイトやパターンの発見を目指し、多くのアイデアを迅速に抽出する必要があります。ビジネスメタデータはこのプロセスで重要な役割を果たします。ビジネスメタデータが整理されていれば、既存のデータセットからどのようなインサイトが得られそうか、アイデアの着想がより容易になります。
また、データ仮想化技術と組み合わせることで、メタデータを活用した分析プロセスはさらに強化されます。データ仮想化は、物理的に異なる場所に格納されたデータセットを、仮想的な単一のデータソースとして扱うことができる技術です。これにより、データの物理的な移動や複製を行うことなく、複数のデータソースを横断する分析を簡単に実行できます。データ仮想化は、データ連携は不要で既存のデータソースに接続するだけなので、導入期間が短く、スピーディーに活用を開始できるという特徴があります。ビジネスメタデータとデータ仮想化を併用することで、より多くのアイデアを低コストで迅速に検証でき、探索型分析の効率と効果を大幅に向上させることができます。
※ 第9回「アジリティとコスト削減に貢献するデータ仮想化でデータ活用を加速化」
メタデータの利用と管理を効率化するデータカタログ − 主な機能
利用するデータの品質が低いと、分析結果も同様に品質が低下します。このことを指して「Garbage In, Garbage Out(ごみを入力するとごみが出力される)」と言われます。データ品質の問題は主に「データ生成過程」で発生します。人の
「データカタログ」は、メタデータを利用、管理するためのシステムです。データ資産についての情報をカタログ化し、検索可能にします。これにより、ビジネスメタデータとテクニカルメタデータの両方を一元的に管理し、簡単にアクセスできるようになります。データカタログを利用することで、データ分析者、データサイエンティスト、および、ビジネスユーザーは、利用可能なデータセットの内容、起源、品質、および、関連性を迅速に理解できるようになります。
データカタログの主な機能は、以下のとおりです。
メタデータの自動収集と分類
データソースからメタデータを自動的に収集し、整理することで、データ資産を迅速に識別し、カテゴリー分けします。
検索と探索
キーワード検索やフィルタリング機能などを提供し、特定のデータセットや関連する情報を素早く見つけることができます。
データの理解と評価
データセットに関連する詳細情報、どのようにデータが生成されたか、お勧めの活用用途に関する情報を提供します。
アクセス管理とセキュリティ
データアクセス権を管理し、認証されたユーザーのみが特定のデータセットにアクセスできるようにします。
コラボレーション機能
ユーザーがメタデータに注釈を付けたり、データセットに関する知識や経験を共有できるようにします。
データの民主化とデータドリブン経営を支えるデータカタログ
ビジネスメタデータとテクニカルメタデータでは利用者もニーズも異なる
ビジネスメタデータとテクニカルメタデータは、その用途や対象ユーザーが異なります。
ビジネスメタデータは、データの利用者であるビジネスユーザーやデータサイエンティストが使用し、データのビジネスコンテキストや利用可能性を理解するために活用されます。一方、テクニカルメタデータは、データの格納方法やアクセス方法など、技術的な側面に焦点を当てた情報であり、主にエンジニアが利用します。
DX(デジタルトランスフォーメーション)の進展に伴い、ビジネスメタデータの利用者はエンジニアだけでなく、ビジネスサイドの一般社員にまで広がっています。そのため、ビジネスメタデータは直感的に理解しやすい形で提供される必要があり、ユーザーフレンドリーなUIが求められます。一方で、テクニカルメタデータでは、その管理に一貫性、正確さなどが重視されるため、エンジニアが利用しやすいことが求められます。
このように、ビジネスメタデータとテクニカルメタデータは利用者が異なり、そのニーズも異なります。ビジネスメタデータとテクニカルメタデータの双方が求める機能性をすべて備えたサービスやツールは限られているので、ビジネスメタデータ向けのユーザーフレンドリーなツールと、テクニカルメタデータを詳細に管理できる専門的なツールを使い分けることが現実的な解決策となります。異なる目的に合わせたツールの選択と利用が、データ分析の効率化と精度向上を実現します。
データドリブン経営に必須な「データの民主化」のマストツール
データドリブン経営の実現において、「データの民主化」は必須の要素です。「データの民主化」とは、全社員がデータにアクセスし、データを基にした意思決定を行うことができる状態を指します。この状態を達成するために重要なツールが「データカタログ」です。前述のとおり、データカタログは、企業内のデータ資源を一覧化し、検索可能にすることで、データへのアクセシビリティを向上させます。すなわち、データの探索、理解、利用が容易になり、データ利用文化の促進に大きく貢献します。
データカタログの重要性が高いもう一つの理由は、データと利用者の増加です。データの多様化とともにデータセットの数が急増しており、従来の管理方法では利用可能なデータを見つけ出し、その価値を理解することが難しくなっています。また、データ利用者がエンジニアだけでなく、非エンジニアにも広がっている現状では、より直感的で使いやすいデータアクセス方法が求められています。
小規模な組織やデータセット数が少ない場合、wikiやConfluence、Excelなどのツールを用いた静的な情報の管理で対応可能です。これらのツールは、データセットとその特性についての基本的な情報を文書化し、共有するのに適しています。しかし、データセットの量が増加し、データ利用者が多様化するにつれて、これらの手法では管理が困難になります。このレベルに達すると、データを効率的に管理・活用するためにデータカタログの導入が不可欠になります。
パブリッククラウドのデータカタログサービスの特徴
データカタログの領域には多くの製品、サービスが存在し、数か月ごとに新たな製品が出るほど開発が活発です。パブリッククラウド各社のサービス(たとえば、Amazon Web Servicesの場合はAWS Glue)や商用製品ベンダーの製品から、自社の利用要件にフィットするものを選択します。
パブリッククラウドのサービスを利用するメリットは自動化です。パブリッククラウドサービス内にあるデータセットのテクニカルメタデータを自動収集することができ、人手による管理コストを大きく低減できます。ビジネスメタデータの管理、利用も可能ですが、UIがエンジニア向けとなっているサービスが多いことが注意点です。
選定にあたっては、使い勝手が重要な要素を占めるため、「使用感」についてしっかり評価することをお勧めします。
メタデータ管理業務に関する詳細な内容やサービス選定のポイントは、日経クロステック記事に記載しています。ご興味のある方はご覧いただければと思います。
次回のテーマは「データガバナンス」です。データマネジメントの各領域を管理する業務で、安全に正しくデータ活用するためには、広領域のデータマネジメント統制が欠かせません。データガバナンスの内容と実行のポイントについて解説します。