Fivetranを使用して、メールから送られてくるデータをBigQueryに格納してみた

こんにちは、SCSKの齋藤です。

本記事では、クラウド型データ連携サービスであるFivetranを活用し、BigQueryに効率的にデータを格納する方法について解説します。データエンジニアリングの知識がなくても、Fivetranを使えば、簡単にデータ連携パイプラインを構築することができます。

Fivetranとは

Fivetran(ファイブトラン)は、クラウドベースのデータ連携(ETL/ELT)パイプラインサービスです。
簡単に言うと、様々なデータソースからデータを抽出し、データウェアハウスやデータレイクに自動的に転送、格納してくれます。

Fivetranの主な特徴

  • 自動データパイプライン構築:複雑な設定やコーディングなしで、様々なデータソースとデータウェアハウス間のデータパイプラインを構築
  • 多様なデータソースに対応:300以上のコネクタを通じて、Salesforce、Hubspot、ShopifyなどのSaaSや、Snowflake、Redshift、BigQueryなどのデータウェアハウスと連携可能
  • フルマネージド:インフラの構築やメンテナンスは不要で、Fivetranがすべて自動で管理
  • 自動データ同期:データソースの変更を自動的に検出し、データウェアハウスに同期
  • 変換機能:データの型変換簡単な加工を行う機能も

どんな時にFivetranを使うか?

  • 複数のデータソースからデータを集めて、データウェアハウスで分析したい
  • データ準備時間を短縮したい
  • データ連携を自動化したい

 

実際に使ってみた:メールからBigQueryへの自動データ連携

メールで送られてくるCSVファイルをBigQueryに自動的に格納する仕組みを構築しました。

具体的な設定手順は以下の通りです。

1.Destinations設定(BigQuery連携設定)

  • Fivetranの管理画面から、BigqueryをDestinatinとして選択
  • BigqueryのプロジェクトID、データ処理ロケーション、タイムゾーンなどの情報を入力
    ※右にSetup Guideがあるため右の手順に沿って設定を行えば楽にできた
  • Fivetranが指定するサービスアカウントをBigQueryプロジェクトに追加し、必要な権限(BigQueryユーザー、BigQueryデータ編集者)を付与
    @fivetran-production.iam.gserviceaccount.comのサービスアカウント
             

  • 設定を保存し、テストを実行して、FivetranとBigQueryの接続が正常に確立されていることを確認

 

Fivetran for BigQuery Implementation | ETL alternative
Fivetran for BigQuery. Read configuration requirements and technical documentation. Fivetran is the smartest way to load...

2.Connections設定(Email コネクタ設定)

  • Fivetranの管理画面から、Emailコネクタを選択
  • 先ほど設定したBigQueryのDestinationを選択
  • Destination schema、Destination tableを入力
  • Fivetranが生成する専用のメールアドレス宛にファイルを添付したメールを送信
  • 設定を保存し、テストを実行して、Fivetranがメールを正しく受信し、BigQueryにデータを格納できることを確認
Email your data to warehouse | ETL alternative | Fivetran data pipeline
Using Fivetran's email connector you can upload your data to your destination by sending an Email. Send an email attachm...

3.BigQueryのパーティション設定:

  • BigQueryのテーブルをパーティション分割することで、クエリのパフォーマンスを向上させ、スキャン量を削減できます。Fivetranのドキュメントを参考に、適切なパーティション設定を行う
Convert a non-partitioned table into a partitioned table
Read step-by-step instructions on how to convert a Bigquery non-partitioned table into a partitioned table.

4.デフォルトカラム

  • Fivetranは、メールの添付ファイルをBigQueryにロードする際に、デフォルトでいくつかのカラム(_file 、_modified)が追加される。これらのカラムは事前にFivetranのドキュメントで確認しておくのがおすすめ
Email your data to warehouse | ETL alternative | Fivetran data pipeline
Using Fivetran's email connector you can upload your data to your destination by sending an Email. Send an email attachm...

 

まとめ

Fivetranは、データ連携を効率化し、データ分析を加速するためのツールです。BigQueryと組み合わせることで、より高度なデータ分析が可能になり、データドリブンなビジネスを推進することができます。

Fivetran は、Fivetran の公式サイトからだけでなく、Google Cloud Marketplace からも購入できます。GCP を利用する場合、マーケットプレイス経由で購入することで、GCP の請求と一本化できるため、管理がしやすくなります。

本記事で、Fivetranを利用することのメリットが伝わりましたら幸いです。

 

著者について

SCSK株式会社
ソリューション事業グループ
基盤ソリューション事業本部

齋藤雄太をフォローする

クラウドに強いによるエンジニアブログです。

SCSKクラウドサービス(Google Cloud)は、Google Cloudの多彩なAIや各種サービスを活用したワンストップソリューションを提供します。SCSKのノウハウや体制を有効活用し、業務課題の解決に必要な全体検討と組み合わせで、最適な業務実装まで支援します。

Google Cloud
シェアする
タイトルとURLをコピーしました