「データベースエキスパートの超実践ノウハウ」の記事は、IT職以外の方々には専門的で難解に感じるかもしませんので、「データマネジメント用語集」をご用意しました。理解の一助となれば幸いです。
あ行
アーカイブ
アーカイブとは、一般に重要なデータや文書を長期間保管することを指し、ビジネスの世界では企業の記録管理に欠かせない役割を果たしています。特に、クラウド上でのデータレイクという概念が登場してからは、膨大な量のデータをインターネットを通じて保管し、管理する方法が一般化してきました。
データレイクでのアーカイブは、主に使用頻度が低いが、法的要件や将来の分析のために保存が必要なデータを、コストを抑えつつ安全に保管する方法を指します。データレイクには、データを取り出すスピードなどの性能を抑える代わりに、コストを低く抑えたアーカイブ用の利用モデルが用意されています。アーカイブは法令遵守の側面でも重要であり、必要に応じて適切な情報を取り出せるように管理する必要があります。アーカイブシステムの利用により、データは適切に分類され、長期にわたって安全かつ効率的に利用することが可能になります。
アジャイル型開発
アジャイル型開発とは、ソフトウェア開発の一手法で、柔軟性を重視し、迅速に変化するビジネス環境やユーザーの要求に応じて製品を改善していくスタイルです。伝統的な開発方法では、事前に計画を綿密に立て、長い期間をかけて一気に完成させる「ウォーターフォール型」と呼ばれる手法が取られがちでした。しかし、この方法では予期せぬ変更が発生した際の対応が難しいという問題があります。DXのためのシステム開発では変化に対応できることの重要性が高く、アジャイル型開発が適するケースが多いです。この開発スタイルでは、プロジェクトを短い工程に分けて、それぞれで実用的な製品の一部を完成させていきます。その都度、ユーザーや関係者のフィードバックを取り入れながら、製品を改善・進化させていきます。データを活用するシステムであれば、最初は基本的なデータ分析機能から始めて、ユーザーの使いやすさや求める機能に応じて次第に高度なデータ可視化や予測機能を加えていくことで、ユーザーにとって最適なシステムへと成長させることができます。
インテグレーションコスト
インテグレーションコストとは、1つのまとまったシステムを作るときに、その構成要素となるソフトウェアやハードウェア、サービスを適切に組み合わせて正しく動作するように設計、構築するにあたってかかるコストのことです。
自分たちで組み合わせを考えて構築、運用すると、エンジニアの作業時間や外部の技術サービスの利用料がかかります。クラウドサービスではあらかじめ組み合わせて正しく動作することが確認された構成がサービスとして提供されますので、設計、構築する際のインテグレーションコストを抑えることができます。
ウォーターフォール型開発
ウォーターフォール型開発とは、プロジェクトを段階的に進める古典的なソフトウェア開発手法です。
滝の流れるように一方向に段々と進む流れを表しています。この手法では、開発をいくつかの明確なフェーズ(段階)に分け、各段階を一つ一つ順番に完了させていく方式を取ります。具体的には、最初にシステムが何を実現しなければいけないか(要件定義)、それをどのような仕組みで達成するか(設計)、プログラミングして(製造)、動作を確認して問題がないか検証(テスト)し、最後にユーザーの手に渡すまでの(運用・保守)各段階を順にこなします。ウォーターフォール型開発の特徴は、前の段階が完全に終わってから次の段階に移ることです。
そのため、「計画通りに進めやすい」「全体の流れが分かりやすい」といったメリットがあり、要件が明確で変更が少ないプロジェクトでは依然として有効な手法と考えられています。
一方で「変更がしにくい」「実際の利用者のフィードバックを取り入れにくい」といったデメリットも持ちます。DXでは、迅速な市場への対応や顧客の要求の変化に柔軟に対処することが求められるため、ウォーターフォール型開発は批判されることがあります。これに対して、変化に対応しやすい開発手法の代表例に「アジャイル型開発」があります。
オブジェクトストレージ
オブジェクトストレージは、インターネット上で大量のデータを保存・管理するためのシステムです。PCやサーバー内でのファイル保存方法とは異なり、データを「オブジェクト」という単位で扱います。例えば、文章ファイルや写真などを一つの「オブジェクト」として保存し、それぞれに独自の識別番号(ID)と詳細情報(メタデータ)をつけて管理します。オブジェクトストレージの特徴は、情報の量が非常に多くなっても効率良く扱えることです。
ファイル名やフォルダ構造に依存しないため、膨大なデータの中からも必要な情報を素早く見つけ出せます。
データの量が加速度的に増えている昨今ではデータを迅速に取り扱うためにアドバンテージとなります。また、クラウドサービスを利用した「データレイク」という概念と結びついています。データレイクは、様々な種類のデータを一つの大きな器に集めるようにして保存するアイデアです。オブジェクトストレージはこのデータレイクを実現するのに適しており、ビジネスで利用される様々なデータを一箇所で効率的に管理することができます。
オブジェクトストレージ2
追加テスト-オブジェクトストレージは、インターネット上で大量のデータを保存・管理するためのシステムです。PCやサーバー内でのファイル保存方法とは異なり、データを「オブジェクト」という単位で扱います。例えば、文章ファイルや写真などを一つの「オブジェクト」として保存し、それぞれに独自の識別番号(ID)と詳細情報(メタデータ)をつけて管理します。オブジェクトストレージの特徴は、情報の量が非常に多くなっても効率良く扱えることです。
ファイル名やフォルダ構造に依存しないため、膨大なデータの中からも必要な情報を素早く見つけ出せます。
データの量が加速度的に増えている昨今ではデータを迅速に取り扱うためにアドバンテージとなります。また、クラウドサービスを利用した「データレイク」という概念と結びついています。データレイクは、様々な種類のデータを一つの大きな器に集めるようにして保存するアイデアです。オブジェクトストレージはこのデータレイクを実現するのに適しており、ビジネスで利用される様々なデータを一箇所で効率的に管理することができます。
か行
学習コスト
学習コストとは、新しいシステムや技術を使いこなすために必要な、時間や努力、費用のことを指します。費用には、学習に時間を費やすことで他の業務ができなくなることでの機会損失も含みます。
データマネジメントに役立つ優れたツールやサービスであっても、それを効果的に使用するためには、まずそのシステムの仕組みを理解し、使い方を学ばなければなりません。この学びの過程で必要となるのが「学習コスト」です。具体的には、担当者がトレーニングを受けたり試用する時間、外部の支援機関に支払う費用、新システムへの移行に伴う作業の遅れなどが含まれます。また、最初にうまく使いこなせないことによるストレスやミスも、心理的な学習コストと言えるでしょう。こうした学習コストをできるだけ抑えながら効率的に新技術を習得することが重要です。そのために、ユーザーフレンドリー(使いやすい)なシステム選び、段階的なスキル習得計画、実務での支援体制などを考えます。学習コストを考慮したサービス選択、マネジメントをすることで、スムーズに新しい技術への移行ができ、結果として会社の生産性の向上につながります。
クエリー
クエリーとは、データベースから、必要なデータを取り出すための命令です。顧客情報の中から特定の地域や連例の範囲のような条件を指定して、データベースに問い合わせて結果を得ます。クエリーはデータベースの製品やサービスがサポートするコードで記述します。最も一般的にサポートされるのはSQLと呼ばれる言語です。
シンプルな問い合わせをするためのSQLであればそれほど難しいものではなく、エンジニアでなくても習得することができます。近年は生成AIを利用して自然言語での問い合わせをクエリーに自動変換してデータを取得できるようになりつつあります。このような機能を備えた製品やサービスを利用すれば、一般のビジネスマンにとっては自然言語で正しいデータ取得条件を表現することがクエリー作成作業であると捉えられるでしょう。
クエリー実行結果をキャッシュする
クエリー実行結果のキャッシュとは、一度実行したクエリーの実行結果をデータ基盤で保存しておくことです。
同じクエリーが実行された際に、データ基盤はキャッシュした実行結果を返して、再度実行することはありません。こうすることでクエリー実行にかかる時間をなくして早く結果を返すことができ、さらに消費されるコンピューティングリソースを減らしてコストを下げることができます。
キャッシュはデータ基盤の中のメモリに保存されます。頻繁に実行されるクエリーの結果ほど、より長い期間保存され、あまり実行されないクエリーの結果はそのうちメモリから削除されます。クエリー実行結果のキャッシュはデータ基盤の中核機能ではなく、より高度な機能を持つ製品やサービスに搭載されるものです。
クリティカルパス
クリティカルパスとは、プロジェクトの開始から終了までの中で、遅れが生じると全体のスケジュールに影響を及ぼす最も重要な作業の流れを指します。この流れの中に含まれる各作業を遅らせてしまうと、プロジェクト全体の完成が遅れる原因になります。あるプロジェクトが複数の作業から成り立つとします。それらの作業は同時並行で進められるものもあれば、ある作業が終わって初めて次に進めるというものもあります。後者のような依存関係にある作業が、クリティカルパス上にあると言えます。DXを推進する場合、テクノロジーの導入計画やデータ分析、新しいビジネスモデルの検討など、多くの重要なステップが存在します。クリティカルパスを把握しておくことで、各ステップがプロジェクトに与える影響を正しく見極め、リソース(人材や時間、予算など)の配分を最適化したり、重点的に管理する作業を決めたりすることができます。クリティカルパスを知ることが、プロジェクトが滞りなく進むための道筋を描き、優先すべき作業を明確にすることに役立ちます。プロジェクトマネジメントの重要な要素です。
クレンジング
ビジネスで使う様々なデータは、必ずしもきれいで整った形ではありません。時には間違いが含まれていたり、重複していたり、欠けている部分があったりします。こうした問題を解決するためにデータを「きれいにする」作業を「クレンジング」と言います。例えば、顧客の住所リストがあったとします。このリストには誤字で入力された住所や、古くなって変わってしまった住所が混ざっているかもしれません。また、同じ顧客が複数回登録されていることもあるでしょう。このようなデータを元に分析した結果を利用すると、ビジネス上の判断やコミュニケーションに支障をきたします。クレンジングでは、まずデータの中の誤りを見つけ出します。それから、正しい情報に修正したり、同じデータをまとめたり(名寄せ)、足りない情報を補ったりして、データをより使いやすく、信頼のおける状態にします。この作業は単純ながら、データ分析結果の精度に直結するため非常に重要です。データの質が高ければ、より正確な分析が可能となり、結果として企業の戦略立案やマーケティングの精度向上に繋がります。
構造化データ/半構造化データ/非構造化データ
データの形式には大きくわけて3つの種類があります。「構造化データ」「半構造化データ」「非構造化データ」と呼ばれます。
構造化データとは、例えばエクセルの表のように、はっきりとしたルールに従って整理されたデータのことです。
データベースに登録される顧客情報や売上データなどがこれにあたり、他のデータとの関連も明確で、検索や分析がしやすくなっています。対して、半構造化データは、EメールやJSON、XMLファイルのように、ある程度はルールがあるものの、構造化データほど厳密ではないデータです。タグやキーワードが使われているため、ある程度は自動で情報を読み取りやすいですが、構造化データほど分析が簡単ではない場合があります。そして、非構造化データは、テキスト文書、画像、動画など特定の形式に収まらないデータのことを指します。これらのデータは量が膨大で多様なため、情報の抽出や整理が大変ですが、近年の人工知能技術の進歩により、これらのデータからも価値ある洞察を引き出すことが可能になってきています。DXでは、これらのデータをどう効率的に活用し、ビジネスに役立てるかが重要なポイントになってきます。データの種類を理解し、それぞれに適した分析ツールや手法を用いることで、企業は新たな価値を創造し、競争力を強化することができます。
コンソール
コンソールとは、インターネットを通じてアクセスできる、パブリッククラウドサービスを制御・管理するための専用のウェブページです。パブリッククラウドとは、複数のユーザーに向けて提供される共有型のコンピュータリソースのことを指し、データの保存やアプリケーションの実行などを行うことができます。クラウド上のリソースを管理する際に、コンソールが非常に便利です。インターネットブラウザからログインすることで、パソコンやスマートフォンなど、様々な端末からでもアクセスすることができます。画面上には使いやすい形で情報が整理されており、新しいサービスの作成、既存のサービスの変更、利用状況の確認などの操作を画面上で行えます。以前はエンジニアが数時間かけて実行していた作業が画面操作だけで数分で実行できるようになったことが多く、柔軟かつ効率的にITリソースを管理したい時、コンソールは重要なツールとなります。
直感的に操作できるようデザインされていることが多いですが、内容を理解して使うには専門的な知識が必要ですので、基本的にエンジニアかITリテラシーの高い方(データサイエンティストなど)が主な利用者です。
コンピューティングパワー
コンピューティングパワーとは、コンピューターなどの電子機器が持つ処理能力のことです。
私たちがソフトウェアを使ったり、データの計算や解析を行ったりするとき、これらの作業をスムーズかつ迅速にこなす能力が必要です。コンピューティングパワーが高いほど、より複雑な作業や大量のデータも素早く処理でき、効率的に業務を進めることができます。コンピューティングパワーは、主にCPU(中央処理装置)の性能に影響されます。CPUはコンピューターの「頭脳」のようなもので、指示を受け取り、計算やデータ処理を行います。また、大量のデータを利用する際はメモリの容量も全体のパフォーマンスを左右します。大量のデータを高速に処理するには高いコンピューティングパワーを持つデータ基盤を用意することになります。クラウドではコンピューティングパワーに比例してコストが上昇しますので、ビジネスで創出される成果との経済性のバランスが取れるよう設計します。
さ行
サーバーレス
サーバーレスとは、パブリッククラウドで提供される、サーバーであることを意識する必要のないサービスという意味の用語です。
先述したマネージドサービスよりも一歩進んでおり、サーバーとして管理する必要もなくしています。マネージドサービスでは運用をクラウドプロバイダーに任せることができますが、サーバーとしては管理する必要があります。ここで言う管理とは、正常に動作しているかの監視とトラブル対応、性能が足りなくなったときのリソース増強などのことです。サーバーレスのサービスでは監視やサーバ停止時の代替リソースでの稼働継続、リソースの管理も自動化されていますので、更に運用負担を減らすことができます。
これによって、サーバーの運用・保守にかける時間やコストを削減でき、本来の業務に集中できるメリットがあります。また、小規模から始めても、後で事業が拡大した際にすぐに対応できる柔軟性もサーバーレスの特徴です。現代のビジネスで重要なスピーディーな対応とコスト削減に有効な手段と言えます。データマネジメントの領域でもサーバーレスのサービスが次々と開発されておりトレンドになっています。
サイロ
「サイロ」という言葉は、もともと農業で穀物を保管するためのタワー型の建物を指します。しかし、ビジネスやデータマネジメントの世界で使われる際には、組織内部で情報やリソースが分断され、部門やチームごとに閉じこもってしまっている状態を指す比喩表現として用いられます。
企業や組織において、各部門やチームが自分たちの業務に特化したデータ設計にして、他の部門との共有を考えないことで、データがサイロになる状況が生まれます。これによって、データ活用の効率が落ちたり、データの構造や形式を合わせる作業が必要になり、重要な意思決定に必要な情報が不足するという問題が発生します。
例えば、営業部門が顧客情報を持っており、マーケティング部門との共有に消極的だと、マーケティング活動の効果が下がる可能性があります。それは、マーケティング部門が必要な顧客データにアクセスできないため、顧客に適したキャンペーンを実施することが難しくなるからです。サイロ化を防ぐためには、部門やチームの垣根を越えてコミュニケーションを活性化させて、データ設計を共通にすることが重要です。サイロは根深い問題で、技術的な対策だけではなく組織文化の変容も同時に促していくことで解決に向かうものです。
自動チューニング
自動チューニングとは、コンピューターシステムやデータ基盤が、最適なパフォーマンスを出すように自動で設定を調整する技術のことです。
データ基盤は、時間と共に使用方法が変わったり、データ量が増えたりすることで、動作が遅くなったり、効率が落ちることがあります。自動チューニングを使うと、こうした問題をシステムが自分自身で検出し、最適な設定に調整することによって、いつも最適な状態で動作を維持することができます。クラウドサービスによっては、前回処理した際の性能を解析して、次回はより高速に処理できるよう調整します。これにより、人の手を煩わせることなく、システムの速度や効率が常に良好な状態に保たれます。利用者は待ち時間を感じることなく、快適にシステムを使い続けることが可能になります。
チューニング作業は経験値が求められる職人技になりやすく、ベテランエンジニアの技量を要します。自動チューニングはコンピューターやシステムが自分自身を常に良い形でメンテナンスするための機能であり、データ基盤管理の難度を下げて生産性の向上に貢献するものです。
スパイク型のシステム負荷
スパイク型のシステム負荷とは、通常通りに動いているコンピューターシステムに対して、突然とても多くの処理する要求が来ることです。システムの処理能力を超えると、性能が落ちて処理に時間がかかったりする現象が起きます。
スパイク型のシステム負荷が起きる例は、大きなセールの日に通販サイトに急にアクセスが増えて、ページが開きにくくなったり、注文が受け付けられなくなる現象が挙げられます。DXでは、会社の業務を変革して、データを上手く活用しようとします。新しいアプリケーションを次々に作っていくと、その一部に予想外のアクセスが集中することがありえます。DXではスパイクを予測することは難しく、スパイク型のシステム負荷が発生した場合でも処理できるよう対策しておくことが現実的です。他の用語との関連で言うと、「プロビジョニング」との関係性が強いです。
正規化
正規化とは、先述した「データ設計」で実行する設計作業の1つです。データを整理し、重複をなくして効率的に管理、活用できる構造にするための方法です。
データを使う際、情報が散らばっていたり、同じ内容が重複していたりすると、間違った判断をしてしまうリスクがあります。管理も大変です。重複しているとデータの一部しか更新されずに矛盾が発生する可能性があります。
正規化は、このような問題を解決するために、データの構造を整える作業のことを指します。顧客情報を考えてみましょう。一人の顧客について、名前、住所、購入商品などの情報があったとします。これらの情報を一つの大きな表(テーブル)にまとめてしまうと、同じ顧客が複数の商品を購入している場合、名前や住所が繰り返し登録され、データが無駄に増えてしまいます。正規化を行うことで、顧客情報は「顧客テーブル」、購入商品情報は「購入履歴テーブル」といったように適切に分けることができます。これによりデータの重複や矛盾を防ぐことができ、必要な情報だけを迅速に取り出せるようになります。DXを進める上でデータを効果的に活用するためには、正しく整理され、簡単にアクセスできる状態でなければなりません。そのために重要なのがデータ設計であり、正規化はその中心的な作業です。
た行
待機コスト
待機コストとは、ビジネスの現場で、特定の作業や作業者が次の行動を起こせる準備が整うまで待たされる時間に関連して発生する隠れたコストのことです。
DXにおいてデータを集めて分析する場合を例に取って説明します。システム間でのデータの連携・収集が必要な場合、その作業が煩雑で時間を要することが多く、その間担当するエンジニアは実際のデータ分析や利活用を行えない状態が生まれます。このときエンジニアの専門スキルを活用する場を持てずに、ただ待つだけで終わる時間 ̶ これが待機コストとして表れます。エンジニアの給料は支払われるわけですが、仕事が進まないので投資対効果が得られないという無駄が発生します。これは単に人件費だけでなく、市場投入が遅れることによる機会損失や競争力の低下といった間接的な損失も含まれます。したがって、DXを推進するうえで、この待機コストをできるだけ削減し、スムーズなデータ活用を実現することが極めて重要です。これには自動化技術の導入や、データ連携プロセスの見直しなどが有効な手段となります。
データストア
データストアとは、データを蓄積する保管場所です。特に「データレイク」と呼ばれる、パブリッククラウド上に設けられたデータの蓄積場所を指します。
ビジネスで日々生成されるデータを効率的に保存し、必要な時に簡単に取り出せるようにするため、データストアが活用されます。データストアは、ただデータを保存するだけでなく、データの種類を問わず(文書、画像、音声、動画などすべて)、大量のデータも迅速に処理できる柔軟性を持っています。また、従来のデータ保存方法に比べて、クラウドを利用することで物理的なスペースをとらずに済み、コスト削減にもつながります。さらに、データストアはセキュリティも高く、外部からの不正アクセスを防いだり、データの損失を防ぐ安全措置も整っています。安全性が高く柔軟で低コストに利用できるデータストアがデータを活用する基盤になります。
データセキュリティープラットフォーム
「プラットフォーム」については別項目で説明していますので先にご覧ください。
データセキュリティープラットフォームは、企業がビジネスで使う機密データを守るためのプラットフォームです。
個人情報、製品の設計図、営業秘密など、不正アクセスや盗難から保護しなければならない機密情報はどの企業でも保有しています。データを守るには、データの匿名化や暗号化、アクセス権限の管理、アクセス履歴の記録、不正アクセスの検知など、多くの作業が必要になります。作業量が多いとセキュリティ対策コストがデータ活用で得られる利益を上回り、データ活用のインセンティブを失わせることにもなりかねません。データセキュリティプラットフォームは、データセキュリティを保つための業務を少ない作業で実行できるように工夫されたクラウドサービスです。
データセキュリティプラットフォームをうまく活用できると、より小さな努力で安心してデータを活用できるようになる可能性があります。
データ設計
データ設計とは、システムやアプリケーションで扱う情報(データ)を分類、整理して定義づけることです。データの名称(例:顧客氏名、商品名、価格)、表現形式(テキスト、数値)、桁数(100文字以内、整数)などを決めます。
そして、これらの情報がどのように関連しているのか、最も効率的にアクセスするにはどのように保有すればいいかを考えるのがデータ設計の役割です。
データ設計が考慮されていると、必要な情報を素早く見つけ出せるようになります。逆にこの段階でしっかりと計画を立てないと、後で必要な情報が見つからなかったり、情報が異なる形式で散らばってしまって後で形式を合わせる作業が必要になります。ビジネスでは、正しい意思決定のためには正確で迅速な情報へのアクセスが不可欠です。その基礎となるのが、優れたデータ設計です。初期に慎重にデータ設計しておくと、かけた時間以上に後々の手戻りを防止することができますので、設計作業に投資する価値があります。
データ設計する際には、データの利用のされ方や、データのセキュリティも考慮します。また、設計は一度きりではなく、ビジネスの変化に合わせて更新することも重要です。効率的なデータ設計が、ビジネスのスピードと柔軟性を支える基礎となります。
データの整合性や一貫性
データの整合性とは、データが適切で正しく、関係性のある他のデータと矛盾がないという性質です。
顧客番号の値と形式が正しく、他のデータ基盤にある同じお客様の顧客番号とも矛盾がない場合にデータの整合性があるといいます。データの一貫性とは、データ全体が同じ基準やルールに従っていることを意味します。
顧客のデータを考えた時に、全ての記録で一貫した書式を使用することが求められます。整合性や一貫性に問題があると、データの分析や利用が困難になり、分析結果の精度が落ちてしまいます。
データの整合性や一貫性が失われている場合、クレンジングという作業で修正して正しいデータにします。「名寄せ」という作業で異なる表に登場する同一顧客を同じように扱えるように整えたり、「補完」で不足している情報を埋めたりします。
データの民主化
データ活用によるDXを進めるうえでの重要な柱の一つに「データの民主化」という考え方があります。
これは、企業内の重要な情報であるデータを 、特定の専門家や部署だけではなく、すべての従業員が簡単にアクセスし、利用できる状態にすることを意味します。従来、データは特定の専門知識を持つ人々によって管理され、その活用ができるのも専門家に限られていました。データの民主化ができると、営業職から経営層まで、多くの人がデータに基づいて迅速な判断を行うことが可能になります。例えば、顧客データや売り上げ実績データを用いて、営業部門がより適切な提案をしたり、マーケティング部門が効果の高いキャンペーンを策定したりすることができるようになります。データの民主化が進むことで、組織内の意思決定の質とスピードが上がり、データに基づく知識を共有しやすくなります。その結果、ビジネスの成長やイノベーションを加速することが期待されます。
データの民主化は、データ基盤や一般のビジネスマンが小さな学習コストで利用できる優れたデジタルツール、トレーニングなどのサポートだけでできるものではありません。データを元にした意思決定をする習慣、事業を実行している現場により多くの意思決定を委ねる組織文化の醸成などの広範な活動を含む概念です。
データパイプライン
データパイプラインとはデータを活用に適した状態にするための一連の流れのことです。
データパイプラインはさまざまな処理から成ります。データの収集、一定の形式への整形、クレンジング、加工などのプロセスです。これらの、データが始点から終点まで流れる道筋を作るイメージです。データが加速度的に増加するとデータパイプラインが複雑になり管理に手間とコストがかかるようになりがちです。データパイプラインをいかに効率よく作成して管理できるかが、データ活用の効率にも影響します。
データモデル
データモデルとは、先述したデータ設計の成果物の1つです。データ基盤内で扱う情報(データ)の構造を整理し、定義したものです。
ビジネスでいうと 、会社の組織図のように、何がどう関連しているのかを示す設計図のようなものです。データモデルを作ることで、会社の扱う情報がどのようなものかを明確にし、関係者の間で共通認識を持てるようになります。データモデルには、抽象度を上げて概念レベルで記載する場合と、細部のデータ項目まで詳細に記載する場合があります。概念レベルのデータモデルはビジネス人材やシステム企画の担当者間で利用され、詳細なデータモデルはシステム開発・運用するエンジニアが主に利用します。
DXは業務プロセスに変革を起こすものですので、アプリケーション処理の変化が起きやすくなります。これに対してデータモデルはシステムの土台となるものですので、初期段階での丁寧な検討が重要になります。DXには、業務プロセス中心ではなく、データを中心に考えてデータモデルを作るアプローチが適しているといえます。
データモデルの良し悪しは、システムの使いやすさや効率、将来の拡張のしやすさにも影響しますので、ビジネスマンにとっても非常に重要な概念といえるでしょう。
匿名化/匿名加工情報/マスキング
個人情報を含むデータ活用を安心して進めるには、個人情報を安全に扱えることが前提になります。
そのための手法として、データそのものを流出しても問題ないようにしてしまうという対策があります。代表的なのが匿名化(匿名加工)、マスキングという手法です。
「匿名化」とは、個人情報から個人を特定できる情報を取り除くことで、データの中に人物を特定できる手がかりを残さないようにする処理です。例えば、顧客リストから名前や住所を削除し、さらに個人を特定される属性情報の精度を落とします。例えば年齢を「20代」「30代」といった範囲でくくったり、住所を市町村レベルで分類するなどの方法があります。こうしてできたデータセットが「匿名加工情報」です。
「マスキング」とは、個人情報を覆い隠すようにして隠す処理のことを指します。クレジットカード番号や電話番号の一部を「****」のように伏せ文字で隠したりするのが一般的な例です。これらの処理を行うことで、個人のプライバシーは保護されつつも、データ分析などのビジネス活動に活用できるため、個人情報を活用するDXにおいて欠かせない技術です。
な行
ノーコード/ローコード
デジタル変革の波は、一般のビジネスマンにもデータを活用する力を求めています。しかし、データを扱うには専門的なITの知識が必要と思われがちです。ここで、「ノーコード/ローコード」というアプローチが注目されています。ノーコード/ローコードとは、専門的なプログラミング技術を持たない人でも、直感的な操作でアプリケーションを作ったり、データを処理できるようにするツールのことです。ノーコードは「全くコードを書かない」、ローコードは「少しのコードで済む」という違いがあります。
ノーコード/ローコードには、アプリケーション開発に使えるものや、データマネジメントに使えるものなど、多くの種類の製品やサービスがあります。データマネジメントのうちデータ連携では、販売データ、顧客情報、在庫管理など、様々な情報を一つにまとめて分析する場合、通常はデータを連携、加工するための専門的なコードを書く必要があります。しかし、ノーコード/ローコードのETLツールを使用することで、コードを書くことなく、クリックやドラッグアンドドロップのような簡単な操作で、データを必要な形に整えて分析できる形式にできます。
DXにおけるデータ活用では、こうしたノーコード/ローコードツールが、専門的なITスキルがないビジネスマンがITエンジニアの支援を独力でデータを活用して迅速な意思決定に役立たせる手段の1つになります。
は行
標準化
標準化は物事を一定の基準やルールに合わせることを意味します。書類のフォーマットや利用するサービス、設計内容を統一するのが標準化です。
データマネジメントでも標準化は非常に重要です。データを扱うツールは種類が多く、それぞれに特徴がありますが、使いこなすためには学習が必要です。複数のツールを使い分けると、学ぶべきことが増えてしまい、労力やコストが増大します。会社全体で使用するツールを1つや少数に絞ることで、学びの手間を減らし、生産性を向上させることができます。標準化されたツールは、新しいスタッフが加わった時の習得の効率化や、チーム間のデータ共有をスムーズにするなど、仕事の効率を改善します。さらに、品質やセキュリティの管理が簡単になる点も標準化のメリットです。少数のツールに習熟することで、ミスによる品質の低下や知識不足での漏洩のリスクを減らすことにつながります。一方で、標準を厳密にしすぎると、多様な業務ニーズに柔軟に応えることが難しくなり、逆に生産性を落とす結果になりかねません。標準化では、デメリットを抑えながら効果の上がる標準を策定することを目指します。
ファインチューニング
ファインチューニングは、汎用的に訓練されたAIシステムを、特定の目的に合わせてさらに最適化することです。
ビジネスの世界でも一般的に利用されている生成AIは一般的な状況でうまく動くように設計されています。ただし、ある企業の特定のニーズやデータに合わせるためには、この一般的なシステムをもう少し特化させるための訓練をする必要があります。ここで「ファインチューニング」が登場します。このプロセスを通じて、システムはその企業の具体的な知識やデータを理解し、より正確で効果的に業務をこなせるようになります。例えば、一般的な画像認識AIのシステムは犬や猫を識別するのが得意ですが、特定の企業が機械の部品を識別する必要がある場合、そのAIシステムを「ファインチューニング」することで、機械の部品に関する新たな情報を学習し、効率良く部品を認識できるようになります。ファインチューニングはすでにある程度賢いAIシステムを、企業の個々の利用要件に合うようにカスタマイズする手法の1つです。
プラットフォーム
プラットフォームとは、さまざまなコンピューティングリソースやサービスを動かすための土台のことです。
代表的なプラットフォームは、クラウドプロバイダーです。クラウドプロバイダーとは、インターネット越しにサービスを提供する会社のことです。代表例はAWS(米アマゾン)、Azure(米マイクロソフト)、Google Cloud(米Google)、OC(I 米オラクル)などです。彼らが持つ巨大なデータセンターのリソースを、利用したい分だけ借りることができます。また、多様な種類のサービスを使うことができ、幅広いシステム化のニーズに応えることができる、というサービスの多様性を示す意味合いも含みます。
クラウドではなくデータセンターに自前のサーバーなどを設置して利用する形態を「オンプレミス」と呼びます。
オンプレミスは、自社で機器を管理するスタイルです。この場合、自分たちですべてをコントロールするため、カスタマイズ性に富みますが、初期投資やメンテナンスに多くの労力とコストがかかる傾向があります。データを活用するDXでは、迅速なデータ基盤の構築や柔軟なシステム変更が求められるため、多くの企業がクラウドプロバイダーを利用しています。必要な時に必要なだけリソースを利用し、コストを抑えつつスピーディーにシステムを構築、運用できるためです。しかし、厳しいセキュリティや特殊な要件がある場合は、オンプレミスを選ぶこともあります。どちらを選ぶかは、企業のニーズや戦略によって異なります。
プロビジョニング
プロビジョニングとは、ビジネスで使うシステムやサービスを使える状態に準備する過程のことです。使い始める際に準備するだけではなく、必要な量が変わった場合に変動させることも含みます。
クラウドの場合、コンピューターの処理能力やストレージ容量を、使う量に合わせて自動的に確保したり、解放したりできます。このプロセスが自動化されていることで、企業は迅速かつ柔軟にビジネス需要に応じたシステム環境を最適なコストで整えることができ、管理コストの削減や作業効率の向上に繋がります。DXでデータ活用する際はデータ量や処理量の変化が大きくなりやすく、プロビジョニングの頻度が高くなる傾向があります。
プロビジョニングは必要なシステムやサービスを過不足なく使えるように準備し、企業がスムーズに業務を行えるようにサポートする大切なプロセスです。
分析基盤
分析基盤とはデータを収集・保存し、それを分析するための仕組みやシステムのことを指します。
今日のビジネスでは、さまざまな情報を集めて意味のある洞察を得ることが、競争力強化の鍵となります。例えば、顧客の購買傾向を理解したり、製品の品質改善のヒントを得たりするために使います。分析基盤を活用すると、ビジネスマンは売上の変化、市場の動向、顧客のフィードバックなど、多くの情報から重要な知見を得ることができます。分析基盤には通常、データを整理・蓄積して管理する「データウェアハウス」、実際にデータを分析してリポートを作成する「BIツール」などが含まれます。これらがうまく連携することで、ビジネスマンは直感的な操作で重要なデータを見つけ出し、より良い意思決定が可能となります。分析基盤はビジネスの状況を可視化し、改善や成長のためのヒントを得るための支援ツールです。データを元にした意思決定をするために必要なシステムになります。
ベンダーロックイン
ベンダーロックインとは、一度特定の企業の製品やサービスを使用し始めると、技術的、経済的な理由により別の製品やサービスへ簡単に移行できなくなる状況を指します。
ある会社が特定のソフトウェアを使い始めたとします。担当者はそのソフトウェアに慣れ、日々の業務に欠かせないツールとなります。しかし、何らかの理由で他社の製品に変更したい場合、新しいソフトウェアへの担当者の学習コスト、データの移行や互換性の問題、ライセンスの買い替え費用など、様々な障壁が立ちはだかります。これらの障壁が高ければ高いほど、企業は現在利用している製品の開発元企業(ベンダー)に「ロックイン」されることになり、他へ移行が難しくなります。
この状況は、技術的な囲い込みだけでなく、契約条件や価格設定戦略によっても生じ得ます。また、クラウドサービスの利用が増える現代においても、サービス提供者が特有の機能やインターフェースを持っていた場合、利用者はそのサービスに依存し、別のサービスへの移行が困難になることがあります。ベンダーロックインを避けるためには、初めから複数の供給元を検討し、将来的な移行のしやすさを考慮して選定することが重要です。また、オープンスタンダード(ベンダーによらず仕様が標準化されている)を採用しているシステムや、データが容易にエクスポート・インポートできるサービス選びが、すぐれた対策となります。
ま行~
リファクタリング
リファクタリングは、ソフトウェアやシステムの内部構造を整理・改善する作業です。
この作業を行う大きな理由は 、ソフトウェアを綺麗で理解しやすくし、将来の変更や機能追加をしやすくするためです。プログラムのコード(ソフトウェアを構成するルールや命令の書かれたテキスト)は、作成する担当者によって分かりやすさにバラつきがあり、時間と共に複雑になりやすいです。それを分かりやすくすっきりとしたコードに修正します。あくまで分かりやすく書き直すものであり、機能には直接影響しません。内部が整理されることで、不具合が生まれにくくなったり、新しい機能が追加しやすくなったりするので、長い目で見るとメンテナンスコストを下げて変更のスピードを上げる重要な作業です。DXに関わるソフトウェアでは変更の頻度が高くなる傾向があり、リファクタリングされていることの重要性が高くなります。
リレーション
リレーションとは、データベースの中で、情報(データ)間の関係性を整理して定義づけることを意味します。
リレーションの概念は、複雑なデータ関連を明瞭かつ効率的に管理するために重要です。ビジネスにおいては、顧客情報、注文履歴、商品情報など様々なデータをリレーションを通じて結合し、必要な情報を迅速に抽出したり、分析したりするために利用されます。リレーションを使用することで、情報の重複を避けることができ、データの整合性を保ちやすくなります。これにより、データベース内の情報が常に正確で最新の状態を維持できるため、ビジネスにおける意思決定の品質を向上させることが可能です。データエンジニアリングにおいてリレーションは基本的かつ中核をなす概念であり、データを実用的に扱う際には欠かせない存在です。
A~Z
API
API(エーピーアイ)とは、「アプリケーションプログラミングインターフェイス」の略で、異なるシステムやソフトウェアが互いに通信し、情報をやり取りするためのルールや手続きを定めたものです。
スマートフォンの天気アプリを例に取ると、天気予報の情報を表示する際にはAPIを通じて天気予報サービスからデータを受け取って表示します。DXのプロジェクトでは、データを活用して早く成果を挙げるために、さまざまなシステム間でスピーディーにデータを連携させる必要があります。ここで重要な役割を果たすのがAPIです。APIを用意しておくと、新たにデータ連携したくなった際に毎回データ連携プログラムを開発する必要がなく、APIを利用するだけで良くなります。APIを利用することで、時間を節約し、ミスを減らすことができ、結果としてビジネスの効率化とスピードアップを実現します。APIはクラウドサービスで一般的に用意されている他、企業内で作成することもできます。繰り返し利用される機能をAPIとして作成、再利用できるようにするとスピードと品質、コストの面で改善する可能性があります。
ETL
通常、企業内では経理システム、顧客データベース、販売管理システムなど、異なる場所に異なる形式でデータが保有されているため、データをまとめて分析するには、散らばっているデータを分析するシステムに集約する必要があります。
ETLとは、「Extract(抽出)」「Transform(変換)」「Load(読み込み)」という、データが保管されている場所から、データを利用する場所に、整理しながら取得する3つのプロセスを指す用語です。
具体的には以下のようなステップで構成されます。まず「Extract」では、データを保有するシステムから必要なデータを取り出します。次に「Transform」の段階では、収集したデータを利用目的に合った形に変換します。
例えば、数字の単位を統一したり、重複する情報を一つにまとめたり、データの不整合を修正する作業などが含まれます。この変換を行うことで、データが分析しやすくなり、より有効に、効率よく活用することができます。最後の「Load」では変換されたデータを分析のためのデータベースやデータウェアハウスに取り込みます。このデータベース内では、情報が整理され一元管理されるため、迅速かつ柔軟に様々な分析が可能となります。
ETLはデータを活用するための必須のプロセスです。データが増え続ける現代では、ETLのプロセスを効率化することがスピーディーなデータ活用を進める必要条件です。
NoSQLデータベース
NoSQLデータベースは、従来の表形式のデータベースシステム(RDB:リレーショナルデータベース)と異なり、さまざまなデータ形式を柔軟に扱うことができるデータベース管理システムです。DXにおいては、企業は多様な種類のデータを迅速に扱い、活用することが求められます。
たとえば、ソーシャルメディアの投稿、センサーからのデータ、顧客のオンライン行動など、さまざまな形のデータを集める必要があります。NoSQLデータベースは、このような構造化されていないデータや半構造化データを効率的に保存し、処理することが得意です。NoSQLデータベースにはいくつかのタイプがあり、データのタイプや想定される処理内容に合ったものを選択します。NoSQLデータベースの利点はその柔軟性にあります。
データ構造をあらかじめ厳密に決める必要がなく、 新しい種類のデータが出てきても対応しやすいです。また、軽量で大量のデータを迅速に処理する能力も持っており、ビッグデータの時代に適しています。反面、複雑な検索条件でデータを取得することは苦手です。
DXを進めるにあたっては、適材適所でNoSQLデータベースを使いこなすことができれば多くのバリエーションのデータや処理要求に応えることができます。
SaaS
SaaS(サース)とは「Software as a Service」の略で、インターネット経由で提供されるソフトウェアサービスのことです。ある特定の機能を持つソフトウェアを、自分たちのパソコンやサーバーにインストールせずに、オンライン上で利用するという形態です。
データマネジメントにもSaaSが力を発揮しています。新たに出現してきているデータマネジメント用のSaaSは、これまで複雑かつ専門的な知識を要していたデータ整理や分析を、より簡単に、かつ効率的に実施できるようにしています。例えば、顧客データを一元管理し、そのデータから顧客の行動傾向を読み解く、といったことがブラウザの操作でできるようになっています。こうしたSaaSによるサービスは、月額料金で利用できることが多く、高価なシステムを自社で保有・運用するコストを削減できる上に、インターネットがあればいつでもどこでもアクセス可能なため、柔軟かつ迅速なビジネス運営を支援してくれます。