こんにちは、SCSKの齋藤です。
本記事では、クラウド型データ連携サービスであるFivetranを活用し、BigQueryに効率的にデータを格納する方法について解説します。データエンジニアリングの知識がなくても、Fivetranを使えば、簡単にデータ連携パイプラインを構築することができます。
Fivetranとは
Fivetran(ファイブトラン)は、クラウドベースのデータ連携(ETL/ELT)パイプラインサービスです。
簡単に言うと、様々なデータソースからデータを抽出し、データウェアハウスやデータレイクに自動的に転送、格納してくれます。
Fivetranの主な特徴
- 自動データパイプライン構築:複雑な設定やコーディングなしで、様々なデータソースとデータウェアハウス間のデータパイプラインを構築
- 多様なデータソースに対応:300以上のコネクタを通じて、Salesforce、Hubspot、ShopifyなどのSaaSや、Snowflake、Redshift、BigQueryなどのデータウェアハウスと連携可能
- フルマネージド:インフラの構築やメンテナンスは不要で、Fivetranがすべて自動で管理
- 自動データ同期:データソースの変更を自動的に検出し、データウェアハウスに同期
- 変換機能:データの型変換や簡単な加工を行う機能も
どんな時にFivetranを使うか?
- 複数のデータソースからデータを集めて、データウェアハウスで分析したい
- データ準備時間を短縮したい
- データ連携を自動化したい
実際に使ってみた:メールからBigQueryへの自動データ連携
メールで送られてくるCSVファイルをBigQueryに自動的に格納する仕組みを構築しました。
具体的な設定手順は以下の通りです。
1.Destinations設定(BigQuery連携設定)
- Fivetranの管理画面から、BigqueryをDestinatinとして選択
- BigqueryのプロジェクトID、データ処理ロケーション、タイムゾーンなどの情報を入力
※右にSetup Guideがあるため右の手順に沿って設定を行えば楽にできた
- Fivetranが指定するサービスアカウントをBigQueryプロジェクトに追加し、必要な権限(BigQueryユーザー、BigQueryデータ編集者)を付与
@fivetran-production.iam.gserviceaccount.comのサービスアカウント
- 設定を保存し、テストを実行して、FivetranとBigQueryの接続が正常に確立されていることを確認
Fivetran for BigQuery Implementation | ETL alternative
Fivetran for BigQuery. Read configuration requirements and technical documentation. Fivetran is the smartest way to load...
2.Connections設定(Email コネクタ設定)
- Fivetranの管理画面から、Emailコネクタを選択
- 先ほど設定したBigQueryのDestinationを選択
- Destination schema、Destination tableを入力
- Fivetranが生成する専用のメールアドレス宛にファイルを添付したメールを送信
- 設定を保存し、テストを実行して、Fivetranがメールを正しく受信し、BigQueryにデータを格納できることを確認
Email your data to warehouse | ETL alternative | Fivetran data pipeline
Using Fivetran's email connector you can upload your data to your destination by sending an Email. Send an email attachm...
3.BigQueryのパーティション設定:
- BigQueryのテーブルをパーティション分割することで、クエリのパフォーマンスを向上させ、スキャン量を削減できます。Fivetranのドキュメントを参考に、適切なパーティション設定を行う
Convert a non-partitioned table into a partitioned table
Read step-by-step instructions on how to convert a Bigquery non-partitioned table into a partitioned table.
4.デフォルトカラム
- Fivetranは、メールの添付ファイルをBigQueryにロードする際に、デフォルトでいくつかのカラム(_file 、_modified)が追加される。これらのカラムは事前にFivetranのドキュメントで確認しておくのがおすすめ
Email your data to warehouse | ETL alternative | Fivetran data pipeline
Using Fivetran's email connector you can upload your data to your destination by sending an Email. Send an email attachm...
まとめ
Fivetranは、データ連携を効率化し、データ分析を加速するためのツールです。BigQueryと組み合わせることで、より高度なデータ分析が可能になり、データドリブンなビジネスを推進することができます。
Fivetran は、Fivetran の公式サイトからだけでなく、Google Cloud Marketplace からも購入できます。GCP を利用する場合、マーケットプレイス経由で購入することで、GCP の請求と一本化できるため、管理がしやすくなります。
本記事で、Fivetranを利用することのメリットが伝わりましたら幸いです。