クラウドではじめるデータマネジメント
ETLツールを賢く活用して、データ連携を高速化・効率化
ETLツールを賢く活用して、データ連携を高速化・効率化
本コンテンツは、当社で執筆している日経クロステック記事「実践DX、クラウドで始めるデータマネジメント 第8回「増え続けるデータ連係、クラウドで短期間・低コストに実装するにはどうするか」の内容を一部要約しつつ独自コンテンツを加えたものです。日経クロステック記事の全文はこちらをご覧ください。
目次
本記事では、デジタルトランスフォーメーションの進展に伴い変化するデータ連係のニーズと特性について掘り下げます。また、クラウド環境でのデータ連係の実装と運用をコストと時間を抑えて行う方法についても触れます。DXの取り組みをよりスムーズに進行し、データ活用の効率を高めるポイントについて理解が深まります。
迅速且つ低コストでのデータ連携実装が求められる
DXプロジェクト
「データ連係」とは、異なるデータ基盤やサービス間でのデータの共有と交換のプロセスを指します。この作業は、DMBOK2(Data Management Body of Knowledge)の「データ統合と相互運用性」領域に属します。データ連係自体が直接的な価値を生み出すものではないものの、データを効果的に活用するためには不可欠なプロセスです。工数が膨らみやすいデータ連係を効率的に実行できると、より多くの時間をデータ活用に充てることが可能になります。
ウォーターフォール型開発では、データ連係の実装はプロジェクトの初期段階に計画され、データ利用の時期から逆算して進められます。通常、開発業務はプロジェクトのクリティカルパスとして位置づけられるので、データ連係の実装は期間的に余裕を持って計画でき、短縮化の圧力がかかることはあまりありません。
しかし、デジタルトランスフォーメーション(DX)のプロジェクトでは、状況が大きく異なります。DXでは、データがすでに存在することが前提のため、分析や概念実証(PoC)は速やかに行われる必要があります。データ連係の実装の遅れはプロジェクト全体のスケジュールに影響を及ぼし、エンジニアの待機コスト増大につながります。従って、データを活用する側は迅速なデータ連係の実装を強く望むという傾向があります。
データ連係には、多様な連係方式への対応と、短期間での実装が重視されます。加えて、データ連係が必要なケースが増え続けていることから、低コストで運用できることも重要です。
データエンジニアが「データ連携」を統制する
「DXに特有のデータ連携」における要求を満たす鍵は、1)導入期間が短く、データ連携処理実装の生産性が高い技術の選定と、2)設計の標準化です。標準化は低コスト運用にもつながります。的確に技術を選定し、標準的な利用方法を定着させるには、企業内で知見と経験のあるチームによる統制が必要です。この業務に適任なのはデータエンジニアです。
実際には、データ連係業務をアプリケーションエンジニアやデータサイエンティスト、ビジネスユーザのようなエンジニア以外が担うことも多いですが、そのような場合もデータエンジニアが必要なデータ連係ニーズを理解したうえで、適切なツールやサービスを選定し、多様なデータ連係要求に対応できる標準的なシステムを構築できていると、データ連携の開発生産性とコストを保つ効果があります。
データ連係の基本はETL
データ連係には主に3つの方法があります。
最も一般的なのはETL(Extract・Transform・Load、抽出・変換・書き出し)で、データを変換しながら連携先に取り込む方法です。次は、データ同期で、データの変換をせずに、データをそのまま連携先にコピーする方法です。3つ目は、アプリケーション連係です。アプリケーション層でデータを連係する方法で、APIを通じて外部との連係を実現します。
ETLの方式に対応する製品やサービスを、「ETLツール」と呼びます。ETLツールはデータ連係のために以下のような機能を備えています。
データ抽出
データの連係元から連係対象のデータを抽出する機能です。既に連係されたデータは除外し、新たに更新されたデータだけを抽出します。ETLツールを利用するには、連携元のシステムへの接続がサポートされているかを確認する必要があります。
データ変換
データの型や形式を変更し、連係先での使用に適する形に整えます。ETLツールによっては複雑なビジネスロジックをコードで実装できるものもあります。
データ書き出し
連係先にデータを挿入、更新、または削除します。データ抽出と同様に、ETLツールが連携先にも接続できることを確認します。
実行管理
データ連係のスケジュールや実行トリガーを管理します。複数の連係が依存している場合は、実行順序や待機条件の設定が必要です。運用管理のための実行状態の監視やログ記録も重要です。
データ連携の方式は、これまで紹介したものの他に、データ同期、アプリケーション連携と呼ばれる方式があります。これについては日経クロステック記事に記載していますので、ご興味がありましたらご覧ください。
ETLツールを賢く利用する
ETLツール活用で実装・運用を大きく効率化
データ連係の多くは、ツールを活用することで実装期間を短縮して実装にかかる工数を削減することが期待できます。ツールの利用は、ノウハウの再利用を可能にし、学習コストの軽減にも繋がります。
運用でも利点があります。ツールのインターフェースでどのようなデータ連係が行われているかを確認できます。連係を変更した際の影響範囲を簡単に理解でき、修正対応を容易にするという大きな利点があります。
ETLツールを選定する際のポイントは?
ETLは長い歴史を持つ製品カテゴリーであり、成熟したツールは機能的に優れています。現在のETLツールとサービスの主流は、ノーコードでデータ連係を実装できる機能と、コード記述による複雑な変換処理の実装の両方を提供することです。この柔軟性により、非エンジニアでもノーコード/ローコードでデータ連係を構築できます。
クラウド上のETLサービスは、特にノーコードやローコードでのデータ連係構築を支援しています。これらのサービスは大抵サーバーレスで提供され、基盤管理の手間がかからない点が特徴です。また、従量課金制の料金体系を採用しているため、利用頻度が低い場合にはコストメリットが大きくなります。事業部門でデータ活用する際のニーズにフィットしやすいです。
ETLツールは機能とともに、利用者属性が選定のポイントになります。エンジニアだけが使うのか、ビジネスユーザが利用できるユーザビリティを求めるかによって選択肢が大きく変わります。
事前にデータを標準化して、データ連携業務の負担を軽減
データ連係業務は、データ設計の標準化やマスターデータの一元管理など、データマネジメントの他の分野、特にデータ品質から大きな影響を受けます。データ設計が統一されていない場合、データ連係の複雑さが増し、実装と運用のコストも高まります。そのため、データの標準化や効率化の取り組みを併せて進めることで、データ連係業務の負担を軽減し、生産性を高めることにつながります。
よりビジネスユーザにも使いやすく、どのプラットフォームでも動作する新たなコンセプトのサービスも登場しています。SaaSを提供するスタートアップのサービスをはじめ、普及が進んでいる新たなサービスについても別の機会でご紹介したいと思います。
次回のテーマは「データ加工」です。複雑化するデータ加工と、新たなツールを利用することによる効率化について説明します。