Cloud Data Fusion

データ分析・活用基盤

Amazon S3からGoogle Cloud BigQuery にデータ連携させるハイブリッドデータ基盤

AWS S3のデータ資産をGoogle Cloud Data Fusionで活用するため、PrivateLinkと専用線を用いた「閉域網マルチクラウド連携」の構成を解説します。技術的な仕様の制約を回避し、運用負荷を最小限に抑えつつ100以上のインターフェースを統合した事例です。
データ分析・活用基盤

【AWS – Google Cloud】マルチクラウドでキューイングデータ連携

AWS MSKからGCPへのデータ連携において、MSK Connectの仕様制約に伴うコスト肥大化を回避するため、Cloud RunによるPull型アーキテクチャへと転換した事例を紹介します。コスト最適化と疎結合な設計により、大規模なマルチクラウド環境下で高効率かつ堅牢なデータパイプラインを実現した経緯を詳説します。
Google Cloud

【Google Cloud】Associate Data Practitioner 受験前レポート

今回は、Google Cloud認定資格に新しく追加された「Associate Data Practitioner」の受験前レポートです。実際にどんな対策をして臨んだのかを記録しようと思います。
Google Cloud

【GCP】Cloud Pub/SubをトリガーにしたDataFusionリアルタイムパイプラインを作成する

GCPのCloud Pub/SubをトリガーとしたData Fusionのリアルタイムパイプラインを作成しました。Cloud Pub/Subにデータを投入後、Data Fusionパイプラインを経由し、BigQueryのテーブルに格納されるフローの構築となります。リアルタイムパイプラインではSourceにPub/Sub、TransformにWrangler、SinkにBigQueryをしました。
Google Cloud

【GCP】Cloud FunctionsのCloud StorageトリガーでDataFusionパイプラインを起動

今回は、Cloud Functions とData Fusionを組み合わせて、Cloud Storageバケットの変更を検知しパイプラインを起動する仕組みを構築してみたいと思います。
Google Cloud

【GCP】Cloud Data Fusion で Wrangler を柔軟に使い倒す

Google CloudのData Fusionでパイプラインを構築する機会が多くあり、その中でも「Wrangler」のプライグインを多く使用したので、その際に便利だった機能をご紹介します。