クラウドではじめるデータマネジメント

第4回

データ活用の効率を高める「データレイク」はデータマネジメントの要

データ活用の効率を高める「データレイク」はデータマネジメントの要

  • Facebook
  • X
  • note

本コンテンツは、当社で執筆している日経クロステック記事「実践DX、クラウドで始めるデータマネジメント 第5回「データ統合の効果を高めるデータレイク、その特性と活用法を理解する」の内容を一部要約しつつ独自コンテンツを加えたものです。日経クロステック記事の全文はこちらをご覧ください。

この記事では、データ活用における「データ統合」の重要性と問題、そして、データレイクが「データ統合の問題」をどのように解決し、データ活用の効率を向上させるかについて解説します。さらに、データレイクの課題と新たなトレンドについても触れます。データ管理におけるトレンドとして、データレイクの重要性とその使い方を知ることで、クラウドでのデータマネジメントの基礎を習得できます。

「データ統合問題」を解決し、データ活用を効率化する
データレイク

データ活用を効率的に行いたい場合、対象となるデータを一箇所に集約することが重要です。毎回データを収集し、統合するのは時間の無駄であり、アジリティの低下にもつながります。データを集約することで、アクセスも容易になります。

しかしながら、現実では、多くの企業がデータを分散した状態で管理しており、統合作業を繰り返し、無駄な作業を生み出しています。一元化されたデータへのアクセスが可能になれば、データ活用そのものにより集中できます。

データ一元化のプロセスは、「DMBOK2」というデータマネジメントのフレームワークに示されており、データやシステムの転送と統合に関わるプロセスも含まれています。この中で、「データレイク」という技術がデータの集約を実現する手段として注目されています。

本記事では、データレイクを用いてデータをどのように集約するか、また、クラウドサービスを利用してデータレイク作業をどのように効率化するかについて解説します。

データの集約は、特にデータ量が多い組織にとってメリットがあります。データ量が少ない組織では必要性が低いかもしれません。データの状態を鑑みて、自社にとってより重要なデータ管理領域は何かをよく考えたうえで取り組むことを推奨します。

データを集約することは、データ連携の効率を高めるために重要です。デジタル化に伴いデータやシステムが増加すると、それに伴いデータ連携のルートも増えます。直接的なエンド・ツー・エンドの連携では、このルートの増加に対応するのが難しく、コストも高くなります。一方で、中央のハブを通して連携するハブ・アンド・スポーク方式では、一定のオーバーヘッドは発生しますが、全体的な効率を保つことができます。

このハブ・アンド・スポーク方式のデータ統合ソリューションは、クラウドが登場する以前から「データハブ」として知られ、特にマスタデータ管理でよく利用されてきました。マスタデータを一元管理し、変更データを定期的に社内システムに配布するシステムです。

データレイクは、従来のデータハブとはいくつかの点で異なります。

継続的なデータ蓄積

データハブは、データ連係のインターフェースを一元管理してデータをやり取りするシステム間の相互運用性を高めることに主眼を置いています。統合データを保持しますが一時的なものです。一方、データレイクでは継続的にデータを蓄積し、一元管理します。非構造化データの扱いに長けたオブジェクトストレージとしての機能も備えています。

拡張性とコスト効率

クラウドを使うことにより、データレイクは実質的に無制限に拡張できます。リレーショナルデータベースのようなライセンスが不要で、コスト効率が高いのが特徴です。

データ活用の容易さ

非構造化データも含めて他のデータ分析サービスで容易に利用できます。構造化に手間をかけることなく、迅速なアドホック分析が可能です。データ活用の検討やPoC(概念実証)の工程をスピーディーかつ低コストに実行できます。

クラウドサービスで作業効率化。データレイクの定義と実装方法

データレイクを実装する際、パブリッククラウドの環境ではオブジェクトストレージサービスと管理サービスを利用します。Amazon Web Services(AWS)のAmazon Simple Storage Service(S3)がこの分野の代表的なサービスであり、他のクラウドプロバイダーでもS3互換のサービスを提供しています。そのため、異なるパブリッククラウドであっても、データレイクの基本的なアーキテクチャーは似ています。

データレイクの一般的な定義は、あらゆるデータをそのままの形で一元的に蓄積できるストレージ、リポジトリーですが、定義よりも実際に自社で効果を出す使い方をすることが重要です。簡易な使い方ができますし、より高機能な基盤と位置付けることもできます。

データレイクには、利用する対象のデータを、利用したい粒度と形式で蓄積します。あくまでもデータ連係、活用の効率アップが目的です。連係しない、活用しないデータをデータレイクに入れても意味はありません(保管先に利用する場合があり、後述します)。データや、データ活用するシステム数が多くなるほど効果があります。効果を出せるデータから段階的に蓄積していって構いません。

データレイクにデータを蓄積して活用を進めるにあたっては、セキュリティとコスト管理、データ検索機能の仕組みが必要です。クラウド環境でこれらを効率的に実施する方法を検討します。また、全ての場合にデータレイクが最適なソリューションであるとは限らず、適さないケースも存在します。これらの検討ポイントについては、日経クロステックの記事で説明しています。

新コンセプトで課題克服。進化するデータレイク

「データレイク」という概念は比較的古くからあり、今では一般企業まで定着が進んでいます。利用企業においては、すでに課題も見えてきています。

その大きな要因は、データを活用するために、利用するシステムがデータレイクからデータを取得する必要がある点にあります。データを取得する手間をなくしてすぐに活用できないかという問題意識から、より簡単に、効率よくデータを扱えることをコンセプトとするアーキテクチャが登場しています。

最先端の領域では、複数のベンダーから、データレイクに変わる異なるコンセプトが提唱されています。データレイクのサービスも進化を遂げています。それぞれ良い面があり、選択に迷いやすいですが、新コンセプト系については、データ活用側と合わせて利点を見ると理解がしやすくなります。

次回はデータウェアハウス(DWH)がテーマです。さらに、データレイクハウス(データレイクを発展させつつデータウェアハウスと一体化させた概念)などの新しいアーキテクチャについても触れていきます。

  • Facebook
  • X
  • note

データマネジメント用語集 初学者やビジネスパーソンにも理解が進みやすい用語集を用意しました データレイク、データマネジメント、データ仮想化、DBREデータマネジメント用語集 初学者やビジネスパーソンにも理解が進みやすい用語集を用意しました データレイク、データマネジメント、データ仮想化、DBRE

データ活用DXご支援メニュー

データベース内製化データベース内製化
データベースのクラウド移行データベースのクラウド移行
パートナー調達支援パートナー調達支援
データベース信頼性エンジニアリング(データベース運用)データベース信頼性エンジニアリング(データベース運用)
データ活用基盤の立案・構築データ活用基盤の立案・構築

メールでお問い合わせContact