クラウドではじめるデータマネジメント

第10回

品質は高く、管理コストは低く。
データ活用メリットを最大化するデータ品質管理とは?

品質は高く、管理コストは低く。データ活用メリットを最大化するデータ品質管理とは?

  • Facebook
  • X
  • note

本コンテンツは、当社が執筆している日経クロステック記事「実践DX、クラウドで始めるデータマネジメント 第12回「データ品質管理の課題はコスト、最新技術を取り入れ3つの方法で改善」の内容を一部要約しつつ独自コンテンツを加えたものです。日経クロステック記事の全文はこちらをご覧ください。

本記事では、データ品質管理の定義や活動内容について説明します。データ活用で利用価値のある結果を得るために欠かせない品の高いデータですが、手間とコストが膨らみやすいのが難点。最新のクラウドサービスやSaaSを活用することで、データ品質管理を劇的に効率化できる可能性があります。これもDXを高速化するためのポイントの1つです。

増大なデータ品質管理コストはデータ活用の障害

データは21世紀の重要な資源と言われますが、「経済的に利用価値のあるデータ」は限られています。その「経済性」を左右する大きな要素が「データ品質」です。データを分析して意味のある結果を出すにはデータ品質を高く保つ必要があります。しかし、データ品質を高く保つコストは高く、データ利用から得られるメリットを相殺してしまいます。データ利用の効果を最大化するために、低コストでデータ品質を高質に保つ仕組みを持つことが有効です。クラウドサービスや人工知能(AI)のような技術の進歩には、データ品質管理の効率化や、経済的に利用可能なデータの範囲の拡大が期待されます。

データ品質管理とは··· データ品質管理のフレームワーク

データ品質管理とは、「データが利用者のニーズを満たすよう、計画、実施、監視する活動」のことを指し、具体的な活動内容は、DMBOK2(Data Management Body of Knowledge)やISO/IEC 25012のデータ品質モデルを参考に、デジタル庁がフレームワークを整理しています。

データ品質管理の活動内容

利用方式内容評価項目
1. 正確性
(Accuracy)
データが正確であること・書式が正しいか
・誤字脱字などはないか
・意味的な誤りがないか
・データに誤りはないか
2. 完全性 (Completeness)データが目的に応じて抜け漏れなくあること・用途に応じて必要な項目が網羅されているか
・必須項目に空欄が含まれていないか
3. 一貫性 (Consistency)データに整合性や一貫性があること・データセット内でデータに矛盾はないか
・データセット間でデータに矛盾はないか
4. 信憑性 (Credibility)信頼できるデータであること・データの出所が明示されているか
・データの更新日が明示されているか
・改ざん防止策が施してあるか
5. 最新性 (Currentness)データが最新のものに更新されていること・公開データの更新サイクルは元データの更新サイクルに対して適切か
・データは収集時から十分に短い期間で公開されているか
・ファイル等で提供される場合は、最終更新日時及び最新版の所在が明記されているなど、更新版の有無が確認できるようになっているか
6. アクセシビリティ (Accessibility)データを受け取った人がそのデータを活用できること・ファイルで提供している場合、データの使用権を持つ全ての人が利用できるようになっているか
・ソフトウェアを通して提供している場合、そのソフトウェアはISO/IEC 40500 に準拠しているか
・使用している文字セット(常用漢字など)は正しいか
7. 標準適合性 (Compliance)データが入力ルールなどの一定のルールにより管理されていること・データの書式は標準に準拠しているか
・使用している文字セットは正しいか
・選択項目に、指定された選択肢以外のデータが入っていないか
8. 機密性 (Confidentiality)データが目的に応じた機密性が確保されていること・データにアクセスできるのはアクセスを許可された者に限定されているか
・利用者を制限する場合、暗号化やハッキング対策等が行われているか
9. 効率性 (Efficiency)データを効率的に処理できるようコードを割り当てる等の対応がされていること・データの内容に重複などがないか
・データは効率的に処理できるようになっているか
・コードを効果的に使用しているか
・データに一貫性はあるか
10. 精度
(Precision)
データに使用目的に応じて必要な精度があること・データの精度は適正に設定されているか
・データの精度がそろっているか
・データの精度が示されているか
11. 追跡可能性 (Traceability)データに疑義が生じたりした時に、データの原典などを参照できること・外部データが明確になっているか
・データの変更の際に、変更者、変更日等を記録しているか
12. 理解性 (Understandability)データの項目を正しく理解して活用できること・データ全体及び各項目が意味するものを利用者が理解できるようになっているか
・データ全体や必要に応じて各項目にメタデータが提供されているか
・共通語彙基盤のような意味を定めたものに関連付けがされているか
13. 可用性 (Availability)データが必要な時に使えるようになっていること・必要な時にいつでもデータにアクセスできるようになっているか
・データを公開するシステムは常時稼働しているか
14. 移植性 (Portability)システムの入替えやシステム間の連携を行う際に、データを簡易に移行できること・標準的フォーマットで出力できないソフトウェアに依存していないか
・データを管理するシステムから標準的な形式によりデータをエクスポートすることができるか
15. 回復性 (Recoverability)データセンターなどで事故が起こった時に、そのデータが早急に復元できること・データのバックアップが保存されているか
・システム障害が発生した場合であっても、継続してデータを提供するバックアップシステムが存在するか

データ品質管理のキモは、改善項目を最低必要限に絞り込むこと

利用するデータの品質が低いと、分析結果も同様に品質が低下します。このことを指して「Garbage In, Garbage Out(ごみを入力するとごみが出力される)」と言われます。データ品質の問題は主に「データ生成過程」で発生します。人の入力ミスや、システムやIoT機器から標準化されていないデータが出力されるなどの要因があります。

データ品質を改善するには、短期的にはデータマネジメント組織が既存データを改善し、中長期的にはデータ生成の源である業務部門やシステム開発部門がデータ品質の改善に取り組みます。

注意したいのは、すべての品質評価項目を改善することはコスト面で非現実的だということです。たとえば、データ品質の「最新性」を保つには、顧客データなどの定期的な更新が必要ですが、その取得には大きな手間とコストがかかります。そのため、実用上重要な品質改善に絞り込むことをお勧めします。データ品質改善の要否判断は、経済性を基準に行われるべきであり、技術スキルに加えビジネスセンスも重要になります。

データ品質改善の方法を学ぶには、フレームワークに基づくデータ品質管理プロセスの理解が役立ちます。しかしながら、フレームワークに固執し過ぎると管理コストが増大し、データ活用の障害となることもあります。特に初期段階では、必要最低限のデータ品質管理に絞り、実施することが効果的です。

より実践的、効率的なデータ品質管理ができるノウハウやツール

本記事では、クラウドサービスを中心とした実践的なデータマネジメントに役立つ情報を伝えることが目的なので、フレームワークの説明は割愛します。DMBOK2やデータ品質管理ガイドブックなども参考にしていただければと思います。

ソフトウェア工学の知見活用で、単発的改善から継続的改善へ

データ品質管理は重視されることがないために、アドホックの改善を繰り返すことが多く、継続的なプロセス改善や自動化について検討をすることはあまりありませんが、ソフトウェア工学の知見を取り入れることで、データ品質を改善できる可能性が大きく高まります。

ソフトウェア開発では、品質管理の自動化や仕組み化が広く採用されています。これは、コード修正時に自動テストやデプロイを実行するCI/CD(継続的インテグレーション/継続的デリバリー)のような仕組みを通じて達成するものです。データ品質管理の領域でも、このソフトウェア開発のアプローチを取り入れて、新たなデータがシステムに追加された際に自動的に品質評価を行い、利用可能にするツールやサービスを開発する動きが見られます。このような技術の導入により、データ品質管理プロセスが効率化され、継続的かつ低コストで高品質なデータの利用が可能となります。

AWS Glue Data Qualityで、より簡易で効率的なデータ品質管理

AWS Glue Data Qualityは、データカタログやETL機能を提供するサービスであるAWS Glueの機能の1つで、データ品質チェックを自動化し、品質レポートを生成します。これにより、従来エンジニアが手作業でコードを書いて行っていたデータ品質管理の一部が、簡易に実現し、効率化を図ることが可能です。従量課金で利用できるため、料金も低額です。

データ品質管理を自動化する際に、チェックできる品質項目には限界があることが注意事項です。形式的なチェック(正確性、完全性、標準適合性など)には対応可能ですが、意味的なチェックやデータの関連性の評価は困難です。チェック内容を決定するためには、データ仕様や品質基準を明確に定義する必要があります。

AWS Glue Data Qualityにはデータプロファイリング機能も備わっており、データの形式や範囲などの統計を取ることができます。データプロファイリングの結果を基に、一部のチェック項目が推奨されることもあります。

本サービスは、オープンソースソフトウェア「Deequ」を利用したマネージドサービスのため、AWS以外でもDeequを使用してデータ品質チェックを実装することが可能です。

クラウドサービス以外にも、データプロファイリングツールと言われるデータ品質チェックと修正を一貫して行うことが可能な製品もあり、これらはデータ加工機能も併せ持つことがメリットです。クラウドサービスより費用は高くなりますが、自動化できる範囲が広くなることでコストパフォーマンスが高まる可能性があります。

その他、他のパブリッククラウドのサービスや、SaaSで有用なものもあります。SaaSについては別の機会に紹介します。さらに、その他のツールやデータ品質管理を実行するポイントについては日経クロステック記事に掲載しています。ご興味のある方はご覧いただければと思います。

次回のテーマは「データカタログ」です。組織内でエンジニア以外もデータ活用ができるよう「データの民主化」を実現するために重要な仕組みです。メタデータ管理の内容と合わせて説明します。

  • Facebook
  • X
  • note

データマネジメント用語集 初学者やビジネスパーソンにも理解が進みやすい用語集を用意しました データレイク、データマネジメント、データ仮想化、DBREデータマネジメント用語集 初学者やビジネスパーソンにも理解が進みやすい用語集を用意しました データレイク、データマネジメント、データ仮想化、DBRE

データ活用DXご支援メニュー

データベース内製化データベース内製化
データベースのクラウド移行データベースのクラウド移行
パートナー調達支援パートナー調達支援
データベース信頼性エンジニアリング(データベース運用)データベース信頼性エンジニアリング(データベース運用)
データ活用基盤の立案・構築データ活用基盤の立案・構築

メールでお問い合わせContact