【データドリブン経営】実現のための5つのステップ

こんにちは、SCSKの松岡です🚩

SCSKが提供しているクラウドデータ活用サービスでは、データドリブン経営実現のためのステップを、「活用基盤」「可視化・分析」「連携・蓄積」「マネジメント」「高度活用」の5つに定義しています。

各ステップを実現するためのポイントと、さらにそれらを支えるモダンデータスタックの設計についてご紹介します!

 

データドリブン経営のための5つのステップ

SCSKで提供しているクラウドデータ活用サービスでは、お客様のデータ活用状況に応じて段階的にご支援しています。
 

STEP01 データ活用基盤

データドリブン経営を実現するためには、まずデータを蓄積・活用するための基盤が必要です。

特に近年では、AI活用の文脈においてもデータ基盤の重要性が増しています。企業独自のデータをどのように収集・蓄積し、どのように活用していくかという観点において、データ活用基盤はすべての出発点となります。

前提として整理しておきたいのが、「データレイク」と「データマート」の役割分担です。 生のデータをそのままの形で保管する「データレイク」と、特定の分析目的に合わせて加工・最適化された「データマート」を適切に切り分けることで、データの鮮度と分析のスピードを両立させることができます。

最初の基盤は「完璧に作る」のではなく、「素早く使える状態にする」ことが重要です。

初期段階で時間をかけすぎると、データ活用の本来の目的である「価値創出」までたどり着けないケースが多く見られます。そのため、テンプレートや既存の構成を活用し、スモールスタートで基盤を構築することが有効です。

また、基盤構築においてはコストと運用負荷も重要な観点です。

基盤の利用コストと運用負荷は初期段階から考慮し、長期的に持続可能な構成を選択することが重要です。
Snowflakeは、データレイクからデータマートまでを一元管理できる高い柔軟性を備えています。
コスト最適化に優れており、運用負荷も少ないことから、管理の負担を抑えたい方に特に利用を推奨しています。

さらに、近年はデータレイク自体の進化も進んでいます。

従来のファイルベースのデータレイクではなく、Icebergのようなテーブルフォーマットを採用することで、検索性能や運用性を大きく向上させることが可能です。

Amazon S3 Tablesを利用することで、データレイク(Iceberg)の構築・運用をマネージドに実現することができます。
【ここを気にした!】Amazon S3 Tablesで構築するデータ基盤
データ基盤の構築でIceberg (S3 Tables)を導入した際の試行錯誤を整理しました。 従来のS3によるファイル格納型のデータレイクと比較し、Icebergを採用することで得られたメリットや、それをマネージドで扱えるS3 Tablesの利便性について紹介します。

 

STEP02 データ可視化・分析

基盤が整った後、次に重要になるのがデータの可視化・分析です。

ここでよくある課題が、「何を見ればよいか分からない」という点です。

単にBIツールを導入するだけでは、データ活用は進みません。業務でどのような意思決定をしたいのか、そのためにどのデータが必要なのかを明確にする必要があります。

可視化・分析は「見たいもの」ではなく「意思決定のアクション」から逆算して設計することが重要です。

また、導入初期段階ではテンプレートの活用が非常に有効です。あらかじめ分析の「型」を用意することで、ユーザーが迷わずデータ活用を開始でき、早期に成功体験を積めるようになります。

さらに近年では、BIのあり方自体も変化しています。

Snowflake IntelligenceのようなエンタープライズAIエージェントの登場により、ユーザーは複雑な操作をせずとも、自然言語でデータに問いかけ、必要なインサイトを得ることが可能になりつつあります。

Snowflake IntelligenceやAmazon Quickのように、ダッシュボードを自動生成したり、AIがデータの傾向を要約したりする仕組みが登場しており、可視化のハードルは劇的に下がりつつあります。
Snowflake Intelligence を始めるためのアカウント設定
Snowflake Intelligenceは、生成AIを利用して自然言語によるデータ検索や要約を可能にしてくれる機能です。利用開始するために必要なアカウント設定の手順を紹介します。
 

STEP03 データ連携

データ活用を拡張していく上で不可欠なのがデータ連携です。企業内には複数のシステムが存在し、それぞれにデータが分散しています。これらを統合し、分析可能な形に整える必要があります。

データドリブン経営を推進する上でも、社内の多種多様なデータ源とスムーズに連携できているかどうかが、意思決定の判断材料を増やすことにつながります。

また、AI活用を見据えた場合、社内の多様なデータ源と連携できているかどうかが、AIが回答できる領域の広さや精度に直結します。

内製化の難易度、開発者のスキルセット、および連携対象システムにコネクタが対応しているかを確認し、最適なサービスを選定することが重要です。
開発スキルや運用体制に応じて、GUIベースのノーコードツールと、柔軟性の高いコードベースの処理(AWS Glue Python Shellなど)を適切に使い分けることが求められます。
【ここを気にした!】AWS Glue Python Shellジョブによるデータ連携
データ連携の実装でAWS Glue (Python Shell Job)を導入した際の試行錯誤を整理しました。 RDSからデータレイクであるS3 Tablesに連携する際に、横展開可能な軽量なデータ連携ジョブを実現するために気にしたポイントについて紹介します。
システム間連携が発生する場合は、各システムの「データオーナー」との協力関係が不可欠です。
データの仕様理解や権限調整、さらには上流工程での変更が下流の分析基盤に与える影響(データ壊れ)を防ぐためにも、部門を越えた連携体制を構築しておく必要があります。

また、AI活用を見据えた場合、画像や音声、PDFといった「非構造化データ」の重要性も増しています。

Snowflakeでは非構造化データの取り扱いが強化されており、画像・テキストなどのデータもカタログ化し、分析・AI活用の対象として安全に取り込むことが可能です。
データ連携のハードルを下げる存在として、Snowflake Cortex AIの活用が挙げられます。Cortex AIを利用することで、取り込んだ生のテキストや非構造化データに対して、複雑なパイプラインを組むことなくSQLのみで要約や分類、分析などを実行できます。
 

STEP04 データマネジメント

データ活用が進むにつれて、データの管理(ガバナンス)が極めて重要になります。「データの所在が分からない」「権限管理が煩雑」といった課題は、活用が活発な現場ほど顕在化しやすいためです。

複数のソースシステムからデータが集約される中で、各データの定義や意味を管理する「データカタログ」の重要性は、組織の成熟とともに増していきます。

データカタログを導入し、組織全体でデータを可視化することで、データの内容について共通認識を持たせることが重要です。
【ここを気にした!】Amazon Redshiftで構築するBI向けデータマート
今回は、データの可視化・分析において、Amazon Redshiftを用いて事前集計アーキテクチャの見直しを行った際の試行錯誤を整理しました。 また、データマネジメントの観点で、Amazon Sagemaker (Amazon Datazone) を用いて改善できるポイントについてもご紹介します。

また、AWS環境においては、マルチアカウント構成での運用が一般的です。そのため、アカウントを跨いだデータ共有や統制も避けては通れないポイントとなります。

全社的なデータ活用の文脈においては、アカウント横断でデータカタログを一元管理できるか、そして組織間でのデータ共有をいかにセキュアかつ容易に行えるかが、データ活用をさらに加速させるための重要な要素になります。

SageMaker Catalogを活用すれば、アカウントを跨いでデータやAI資産を統合管理できます。

SageMaker Catalogであれば、中央のデータ基盤管理者に過度な負担をかけることなく、各部署間で直接「利用申請・承認」のワークフローを回すことが可能です。部署ごとの判断で迅速にデータを共有できる仕組みを整えることで、ガバナンスを効かせながらも、データの直接的な広まりを加速させることができます。

 

STEP05 高度データ活用

STEP 04までの「基盤・可視化・連携・管理」が整うことで、いよいよデータ活用の真髄である高度な分析・予測のフェーズへと進むことができます。

高度なデータ活用は、テクニック以上に「データの品質とアクセスのしやすさ」に依存します。
STEP 01〜04を確実に踏むことで、AIやMLのポテンシャルを100%引き出せる組織へと進化できます!
【ここを気にした!】Amazon Bedrockを活用したWebクローリング&名寄せ構想
Webクローリングおよび名寄せの検証において、AWS lambdaとAmazon Bedrockを活用したデータ収集アーキテクチャを検討した際の試行錯誤を整理しました。 従来のルールベースのクローリングと比較し、生成AIを用いた柔軟な情報抽出を取り入れることで、サイト構造の差異に耐えるデータ収集方式をどのように実現したか、また収集データと既存マスタを突合する名寄せの課題についても紹介します。

 

データ活用基盤の核となるモダンデータスタック

各STEPを乗り越え、データ活用基盤が完成した場合の例はこのようになります。

各構成要素でどのサービスを採用すべきかは、ビジネス要件や技術の進化に応じて変化していきます。

データ活用基盤を構成するサービスは、近年めまぐるしく進化しています。

先ほど記載したように、データレイクにおいては従来のS3に加え、S3 Tablesのようなパフォーマンスに特化した新しいサービスが登場しています。また、データ連携においても、ノーコードのETLツールからコードベースの統合サービスまで選択肢は増え続けており、組織のスキルセットに応じた柔軟な選択が可能になっています。

このように、状況の変化に合わせてサービスを変更したり、場合によっては使い分けたりすることを想定しておく方が良いです。

そこで重要になるのが、モダンデータスタックの考え方です。

モダンデータスタックとは、単一の製品やサービスに依存するのではなく、各領域でベストなクラウドサービスやSaaSを組み合わせて、柔軟なデータ活用基盤を構成する設計思想です。

例えば、

  • データ蓄積:S3 / Snowflake
  • データ連携:Glue / TROCCO
  • 可視化:Quick / 各種BIツール
  • データ管理:DataZone

といったように、それぞれの役割に応じて最適なサービスを選択し、疎結合に組み合わせていきます。

モダンデータスタックで特定のサービスに依存しない「疎結合」な基盤にすることで、将来的な技術変化や新サービスにも柔軟に対応できる基盤を構築することが可能になります。

この考え方は、AI活用を前提としたAI-Readyなデータ基盤においても非常に重要です。

AIは単体で価値を生むものではなく、その根拠となるデータの品質や量、そしてアクセスのしやすさに大きく依存します。AI活用を成功させるためには、前段となるデータ基盤・データ連携・データマネジメントといった各STEPが適切に設計されていることが不可欠です。

 

まとめ

本記事では、データドリブン経営を実現するための5つのステップと、それを支えるモダンデータスタックの設計思想について紹介しました。

データ活用基盤は最初から巨大なシステムを目指すのではなく、段階的に、かつ柔軟なアーキテクチャで構築することがポイントであると考えています。

変化の激しいAI時代にも迅速に対応できる、データ基盤の実現をこれからも目指していきたいです!

タイトルとURLをコピーしました