クラウドではじめるデータマネジメント
データ活用を促進しDXを加速するデータセキュリティーへのアプローチ
データ活用を促進しDXを加速するデータセキュリティーへのアプローチ
本コンテンツは、当社が執筆している日経クロステック記事「実践DX、クラウドで始めるデータマネジメント 第15回「マネジメント領域のデータセキュリティー、「ガードレール」でデータ基盤を安全に」、16回「データ自体をセキュアに、短期間・低コストで活用進めるデータセキュリティー」の内容を一部要約しつつ独自コンテンツを加えたものです。日経クロステック記事の全文は上記リンクからご覧ください。
目次
本記事では、データセキュリティーの目的や定義、基本的なプロセスに加え、データ活用を妨げず、社内で広く安全に利用するためのDX時代に適したデータセキュリティーアプローチとトレンドについて解説します。さらに、クラウドサービスが提供するデータセキュリティー業務を効率化・低コスト化する実用性の高いサービスを紹介します。
データセキュリティーの目的は、
データ活用を妨げずに情報の安全を維持すること
データセキュリティーは、DMBOK2 (Data Management Body of Knowledge)において「情報資産の保護」として位置付けられています。これには、データとデータを支える基盤の両方のセキュリティーを確保するためのポリシーの策定と実施、および、そのポリシー遵守の監査が含まれます。
データセキュリティーの主な目的は、データを安全に利用できる環境を提供することにあります。データをより安全に、そして広範に利用可能にすることで、デジタルトランスフォーメーション(DX)におけるデータ活用を促進する効果があります。
データセキュリティー対策を計画する際には、「セキュリティーの維持」と「データの自由な活用」のバランスを取ることが重要です。セキュリティーに過度に重点を置くと、データの利便性が低下し、データ活用の効率が損なわれる可能性があります。逆に、セキュリティー対策が不十分だと、リスク回避のためにデータの利用が制限されることになりかねません。クラウドサービスなどの技術を活用することで、セキュリティーを確保しつつ、データ活用の柔軟性と速度を保てる施策を実施することが可能です。
データセキュリティー業務の3つのプロセス
DMBOK2では、データセキュリティー業務を効率的かつ効果的に実行するための3つのプロセスを示しています。データガバナンスのプロセスと類似しており、データセキュリティーとデータガバナンスの関連性の強さがうかがえます。
1. 戦略立案
データセキュリティー戦略の策定では、対象となるデータの機密性や関連するリスク、および遵守すべき法規制を検討します。DXで扱うデータの範囲を特定し、そのデータが要求される機密性レベルや法的要件を満たすようにします。このプロセスは、DX担当部門やセキュリティー担当部門とも連携して行うことが重要です。
2. 対策の設計と実行
策定されたデータセキュリティー戦略に基づき、具体的なセキュリティー対策を計画し実行します。
3. 評価と改善
実施されたセキュリティー対策の効果を定期的に評価し、必要に応じて改善策を検討します。このプロセスは、データセキュリティー管理の持続的な改善を目指すもので、新たな脅威や技術の進化に対応するために不可欠です。
データを安全に利用できるよう、これらのプロセスを効果的に実行するようコントロールするのが「データガバナンス」で、「データガバナンス」と「データセキュリティー」は相互に関連する重要な領域です。デジタルトランスフォーメーション(DX)を成功に導くには、データ活用を妨げないよう、組織の成熟度を高めながら段階的にバランス良く、データセキュリティー対策を適用していく必要があります。
ガードレール型データセキュリティーでDXを安全かつ柔軟に推進
「ガードレール型セキュリティー管理」は、デジタルトランスフォーメーション(DX)に特に適したアプローチです。このアプローチでは、自由な環境利用を促しながらも、セキュリティーポリシーに違反する恐れのある行為を制限または検知することを目標にします。DX推進において探索的な分析や概念実証(PoC)を頻繁に行うと、使用したデータや環境が頻繁に変化する場合があります。ガードレール型アプローチにより、セキュリティーポリシー違反を回避しつつ、迅速に新しい環境やデータを利用することが可能となります。この柔軟性がDXを推進する企業に採用される理由です。
一方で、「ゲート型アプローチ」は、事前に許可された環境やデータのみを利用可能とします。そのため、新しい環境やデータを使用する際には、管理者の承認が必要となり、プロジェクト進行の遅延を招く可能性があります。
ガードレール型とゲート型の特徴
ガードレール型 | ゲート型(従来型) | |
---|---|---|
アプローチ | セキュリティの制限を設定して、その範囲内で柔軟な環境の利用を認めるアプローチ。やってはいけない操作をガードレールとして予防的に定義して、ガードレール範囲内の操作のセキュリティリスクを受容したうえで事後チェックする | 承認プロセスを通じて、許可された変更や操作のみを認めるアプローチ。セキュリティ管理組織がゲートとして機能し、事前にリスクを評価して、問題ないと判断された操作がゲートを通過できる |
柔軟性 | 高い。ガードレールの範囲内で自由に変更、利用できる | 低い。承認を得るまで変更や利用はできない |
スピード | 速い。ガードレールの範囲内であれば制約なく変更、操作ができる | 遅くなる可能性がある。新規性のある変更や操作は承認プロセスを経るまで実行できない |
運用コスト | 比較的低い。ガードレールの設計が不十分だと事後チェックに工数がかかる場合がある | 比較的高い。承認プロセスを実行し続ける必要がある |
主な適用ケース | 変化が発生しやすい環境。開発、PoC環境 | 基幹システムなど変更の少ない環境。非常に機密性、重要性の高いデータを扱う環境 |
セキュリティー管理には、一般的に「予防的統制」と「発見的統制」の2つの方法があります。この考え方をガードレール型セキュリティー管理に取り入れたのが、「予防的ガードレール」と「発見的ガードレール」です。
「予防的ガードレール」は、セキュリティー違反を未然に防ぐために事前に設定するルールやポリシーのことです。これに対し、「発見的ガードレール」は、セキュリティー違反が発生した場合にこれを検知し、対応するための手段です。予防的ガードレールでは対応が難しい場合も、発見的ガードレールによってリスクを管理することが可能です。たとえば、大量の個人情報参照を検知し、リスク評価を行うケースでは、技術的な制約から予防的措置を講じることが難しい場合があります。このような場合、データアクセスログを分析することで、問題の発生を検知し、適切に対処することが可能になります。
予防的ガードレールと発見的ガードレールは、相互に排他的なものではなく、両方を組み合わせることで、DX環境におけるセキュリティーをより効果的に管理することができます。この組み合わせにより、DXのスピードと柔軟性を維持しつつ、セキュリティーリスクを適切に管理することが可能となります。
データそのものを匿名化でセキュアにして、
活用をスピードアップ
データ活用を加速するには、データセキュリティーを保つための時間とコストを最小限に抑えつつ、できるだけ多くの社内メンバーがデータにアクセスできるようにすることが鍵になります。有効なアプローチの1つが「データの匿名化」です。
「データの匿名化」とは、個人を特定できないようにデータを加工することです。改正個人情報保護法において「匿名加工情報」の概念と、利用や外部提供が可能となる基準が定められています。匿名化では、個人情報を不可逆的に変換し、個人を特定できない状態にします。結果として、匿名化されたデータは個人情報として扱われなくなり、セキュリティーレベルを下げることが可能になり、監査業務も簡略化できます。「匿名化」により、データ活用のスピードが高まると同時に、社内でのデータ共有と利用がより容易になります。
機密性の高いデータを厳重に管理する一方で、リスクが低減された匿名化データセットを活用することで、データ活用の効率化とセキュリティーのバランスを保つことができます。
匿名化の主な手法
○ : データ分析にほぼ影響がない
△ : データ分析に一定の制限が出る可能性がある
手法 | 特徴 | データ分析への影響 |
---|---|---|
データマスキング | 機密情報の一部または全部を偽の情報(マスク)で置き換える。不可逆的な変換となるため元のデータを復元することはできず、マスキングされたデータは分析への利用に制限ができる。例)電話番号を03-1234-5678とするなど | △ |
データスワッピング | データセット内で、特定のフィールドの値を他のレコードと入れ替える。これにより、個々のレコードが特定の個人を指す確率が低くなる。値が変わってしまうため、入れ替えたフィールドを組み合わせた分析の正確性が低下する | △ |
集計 | 個々のデータを集約、グループ化し、サマリーのデータ(例:市区町村で集計したデータ)を生成する。個人に焦点を当てた分析が困難になるものの、個人レベルのデータは失われて安全性は非常に高くなる。安全性を重視する場合は目的別に集計データを作成 | △ |
ランダムノイズの追加 | 各データにランダムなノイズ(通常は数値)を加える。データの一般的な傾向を保ちつつ、元のデータから個人を特定するのが困難になる | △ |
一般化 | データの抽象度を高くする。例)具体的な年齢(35歳)を年齢層(30-39歳)に置き換え | △ |
データの丸め | 数値データを四捨五入、切捨などで精度を落とす。データ分析の精度が粗くなる影響があるものの、位置情報などの個人の特定につながりやすくなるデータに適用すると有効 | △ |
サンプリング | データセットからランダムなサンプルを選び出し、そのサンプルだけで分析を行う。統計的に個人の特定を困難にする手法の一部 | △ |
トークナイゼーション | 機密データを特定のトークン値に置き換え、元のデータは別の安全な場所で保管する。トークンと元データのマッピングは、厳重に保護された環境で管理される。元のデータと紐づけできるため分析後に個人を識別したい場合にも利用できる。ただしトークナイゼーションだけでは個人情報として扱う必要があり承諾なく外部に提供はできない | 〇 |
暗号化 | 元のデータを暗号化鍵で暗号化した値で代替する。元のデータとフォーマットを合わせた暗号化データを生成することを特にフォーマット保持暗号化と呼ぶ。復号して元のデータに復元することができる | △ |
レコード削除 | 特定されやすい、特殊な属性値を持つデータを削除する。例)110歳以上のデータを削除 | △ |
クラウドサービスでデータセキュリティー業務の生産性を大きく向上
現在、主要パブリッククラウドでは「データの自動識別」と「匿名化処理」を支援するサービスを提供しています。これらのサービスを、個人情報の取り扱いを安全かつ効率的に行う目的に利用することで、データセキュリティー業務の生産性を向上することが可能になります。但し、機能範囲や対応しているデータ基盤には一定の制約があるため、利用前にデータセキュリティーの要件に合っているかについて確認が必要です。
データセキュリティーに利用できるサービスや機能は次々に登場しています。その一部を挙げます。
Amazon Web Services (AWS) ー AWS Glue
AWS Glueでは対応するデータソースから個人情報を識別し、置き換えることが可能です。特定文字列での置換や暗号化に対応しています。
Amazon Macieは、Amazon S3に格納されたデータをスキャンして個人情報を検出する機能を提供します。S3全体を対象に検出と通知が可能です。
Google Cloud ー Cloud Data Loss Prevention (DLP)
Cloud Data Loss Prevention (DLP) は、Google Cloud StorageやBigQueryに格納されたデータに対して、個人情報の識別と置換を自動で行うサービスです。APIを通じて他のデータソースとも連携可能です。検出可能な情報の種類が多く、マスキング、暗号化、一般化など多様な匿名化手法に対応しています。
Oracle Cloud Infrastructure (OCI) ー Oracle Data Safe
Oracle Data Safeは、マスキング機能を搭載し、関連するフィールド間で一貫性のあるマスキングを実現します。他にもマスキングのポリシーを定義して他のデータセットに対して再利用できるなど、データ量の多い環境に適した機能性を有します。
これらのクラウドサービスを活用することで、個人情報の検出と匿名化処理が以前に比べて格段に簡易かつ経済的に実施できるようになりました。これまでは数千万円のライセンス料が必要な製品でなければ利用できなかった機能を、数十GBの小規模なデータセットであれば従量課金で月額数千円~程度の費用で使うことができます。コンソールの設定で利用できる簡易さも魅力です。
データを匿名化しないデータ保護方法とは?
クラウドサービスを活用したデータ保護のアプローチは多様で、匿名化処理を行わなくてもデータを安全に利用できる方法もあります。
Snowflakeのセキュアビュー
Snowflakeは「セキュアビュー」というデータの実装状態を隠蔽しながら、利用者がアクセスできるデータを制御する機能を搭載しています。一般的なデータベースに実装されているビューと異なり、管理者権限を持つユーザーであってもビューの定義を閲覧や変更ができないようにすることで、セキュリティーを強化します。
Oracle Cloud Infrastructure (OCI) のOracle Database Vault
OCIでは、Oracleリレーショナルデータベースサービスで「Oracle Database Vault」機能を提供しています。これは、データベース管理者とデータビュー管理者を分離し、データベース管理者であってもデータにアクセスできないようにすることで、セキュリティーを向上させる機能です。さらに、列や行レベルでのアクセス管理、マスキング、監査などの機能も備えており、データセキュリティー業務を総合的にサポートします。
これらの機能は、オンプレミス環境ではオプション料金が発生しますが、OCIでは追加費用なしで全ての機能を利用できます。オンプレミスでOracle Databaseを使用している組織にとって、OCIへの移行はデータセキュリティー対策を強化する上で合理的な選択となる可能性があります。
このように、クラウドサービスでは、データ保護のための進化したアプローチを採用しています。これらのサービスを活用することで、データセキュリティーを強化しつつ、柔軟かつ効率的なデータ活用環境を実現できます。
他にもデータセキュリティーの効果的・効率的な実行をサポートするクラウドサービスがあります。クラウドサービスを利用したガードレールアプローチのデータ基盤コントロール例については、日経クロステック記事で説明しています。また、データセキュリティーを高めるための匿名化についても日経クロステック記事内に記載しています。ご興味のある方はご覧いただければと思います。
次回のテーマは「ビジネスインテリジェンス」と「データサイエンス」です。データマネジメントの観点でビジネスインテリジェンスとデータサイエンスのあるべきプロセスを取り上げます。これらを理解することは、データマネジメント業務をいつ、どのように実行するかを計画するうえで重要です。よくある失敗例を挙げながら実行のポイントについて説明します。