データ分析・活用基盤

AWS

Amazon Athena + AWS Glue で Amazon S3 上のデータを読み取る

Amazon Athena と AWS Glue を使用して、Amazon S3 上にある CSV データに対してクエリを実行してみたので、その手順をまとめます。
AWS

Amazon Redshift Serverless のコンピューティングキャパシティについて考える

自分が携わったプロジェクトで Amazon Redshift Serverless を構築したので、その際に分かったこと・試したことを記事にまとめてみました。
データ分析・活用基盤

Amazon SageMaker Unified Studio で簡単なデータ分析をやってみる(前編)

SageMaker PlatformのAmazon SageMaker Unified Studioを使って、データの作成からデータをLakehouseへアップロードし、SQLにてデータ分析をするまでの手順を説明しています。
AWS

【Amazon Athena】Athena初心者のための基礎知識と基本操作

初心者にも非常に扱いやすいサービスですが、「いざコンソールに入るとどこから始めていいか…」と悩んでしまう方向けに基本操作をまとめてみました。
Google Cloud

BigQueryで大きなテーブルを扱う際のTips~高額課金を防止したい~

BigQueryでTBレベルの大きなデータを扱うとき、意図しない高額課金のリスクを抑えたいと思ったことはありませんか?大きなテーブルを扱う上で、コスト削減につながるTipsをいくつかご紹介します。
Google Cloud

BigQueryのパーティションフィルタを必須にするとどうなるのか

BigQueryのパーティションフィルタを必須にしたときの挙動を確認しました。誤ったwhere句を指定した時の挙動や、ノートブックから実行したときの挙動などを検証しています。
Google Cloud

Dataformで複数プロジェクトかつ複数環境にリリースする方法

Dataformで、同一のSQLXファイルから複数環境(dev、prod)向けにリリースを行う方法を記載します。複数のプロジェクトを使用する場合でも、カスタムコンパイル変数を使用することで実現が可能です。
Google Cloud

【GCP】BigQueryML ARIMA PLUSモデルで時系列予測してみる

今回は時系列予測が可能なARIMA+(ARIMA PLUS)でモデルを作成し、実際に使ってみたブログです。多変量時系列予測が可能なARIMA_PLUS_XREGモデルを使用して風速、気温のデータを使って将来のPM2.5の量を予測してみました。
Google Cloud

Dataplexのデータリネージ機能が対応している、BigQueryの加工方法は?

Dataplexにはデータリネージ機能があります。BigQueryでどのように加工したときがリネージ対象なのか、調べてみました。
AI・ML

【GCP】BigQuery MLで作成した線形回帰モデルを評価してみる

今回はBigQuery MLで作成した線形回帰モデルを、様々な指標を使って評価してみます。