【GCP】BigQuery+Dataplexハンズオン受講レポート

こんにちは。最近Google CloudのDataシリーズにはまっている林です。

Google Cloud Day: Digital ’22の2週目に開催されたハンズオン祭のうち、『データエンジニア向けBigQuery + Dataplex 編』を受講してきました。

”Dataplex”は聞いたことがあったもののどのようなサービスか全く理解していなかったため、非常に勉強になる内容でした。

Dataplexって？

分散したデータを一元化して、データ管理を自動化し、より強力な大規模な分析を可能するインテリジェントなデータファブリック
（ハンズオン資料より抜粋）

なるほど、わかったようなわからないような。私はこれだけでは具体的なイメージがさっぱりでした。

なので具体的にできることを見ていきます。

Dataplexが解決する課題（資料より抜粋）	できること
インテリジェントなデータ管理・処理	Cloud Storageバケット内のファイルのメタデータの自動検出ができる。データのキュレーションができる。データ品質(※)の管理・運用ができる。
サイロ化されたデータの一元管理	BigQueryデータセット、Cloud Storageバケットをグループ化しまとめて管理（アクセス制御等）できる。
効率的なデータの探索と分析ツールの柔軟な選択	データ内での探索やクエリなど分析を統合された画面からできる。（プレビュー版）

Dataplexが解決する課題（資料より抜粋）

できること

インテリジェントなデータ管理・処理

Cloud Storageバケット内のファイルのメタデータの自動検出ができる。

データのキュレーションができる。

データ品質(※)の管理・運用ができる。

サイロ化されたデータの一元管理

BigQueryデータセット、Cloud Storageバケットをグループ化しまとめて管理（アクセス制御等）できる。

効率的なデータの探索と分析ツールの柔軟な選択

データ内での探索やクエリなど分析を統合された画面からできる。（プレビュー版）

データ品質：データが分析するうえでどれくらい信頼できるかの指標。データ品質に問題があると、データによる誤った事実認識や意思決定などにつながる。

要するに、

Dataplexを使うと大規模なデータの管理がしやすくなるよ。（※ただしBQ、GCS上のデータに限る）

というサービスのようです。

Google Cloudコンソールの切り口で見ていきます。

『サイロ化されたデータの一元管理』に該当する部分です。

以下はデータ管理に関連する用語整理です。

レイク

論理グループ
分析対象データ（BQ、GCS）をまとめることができる

ゾーン

論理グループ
分析対象データ（BQ、GCS）をまとめることができる

未加工ゾーン	非構造化データや半構造化データを入れるゾーンデータ変換が必要なデータファイルフォーマット：CSV、JSON
キュレートされたゾーン	構造化データを入れるゾーンファイルフォーマット：Paquet、Avro、ORC

アセット

BigQueryデータセット、Cloud Storageバケット

※2022/04時点では上記2つのみ対応。今後拡張予定。

図にすると以下のイメージです。