データ分析・活用基盤

AWS

AWS Step Functions Map ステート分散モードで任意の Amazon S3 バケットのフォルダーにあるオブジェクトを並列処理する

掲題のリソースを実装したときに気付いた注意点を紹介します。
Snowflake

Snowflake Cortex AIを活用して画像分類をやってみた with Cortex Code

SnowflakeのAIサービス「Cortex AI」を活用して、非構造データの代表格である画像データの分類に挑戦してみました。
Google Cloud

あるシンガーの全288曲の歌詞をベクトル化したら、数学的に『呪い』が検出された話

AIは「情念」を座標にできるか?最新のGemini Embedding 2を使い、とある女性シンガーの歌詞全288曲を3,072次元のベクトル空間に展開。数学的に導き出された4つのクラスタが示す、彼女の楽曲の多面性とは。マルチモーダル対応や次元の柔軟性など、最新モデルの凄さをファン兼技術者の視点でレポします。
AWS

Amazon S3 Tablesを触ってみた

Amazon S3 Tablesの簡単な特徴やUpsert処理やタイムトラベルの機能について実際に触ってみた感想を踏まえた記事にしています。
データ分析・活用基盤

【データドリブン経営】実現のための5つのステップ

SCSKが提供しているクラウドデータ活用サービスでは、データドリブン経営実現のためのステップを、「活用基盤」「可視化・分析」「連携・蓄積」「マネジメント」「高度活用」の5つに定義しています。各ステップを実現するためのポイントと、データ基盤のベースとなるモダンデータスタックの考え方についてご紹介します!
AWS

【ここを気にした!】Amazon Bedrockを活用したWebクローリング&名寄せ構想

Webクローリングおよび名寄せの検証において、AWS lambdaとAmazon Bedrockを活用したデータ収集アーキテクチャを検討した際の試行錯誤を整理しました。従来のルールベースのクローリングと比較し、生成AIを用いた柔軟な情報抽出を取り入れることで、サイト構造の差異に耐えるデータ収集方式をどのように実現したか、また収集データと既存マスタを突合する名寄せの課題についても紹介します。
AWS

【ここを気にした!】Amazon Redshiftで構築するBI向けデータマート

今回は、データの可視化・分析において、Amazon Redshiftを用いて事前集計アーキテクチャの見直しを行った際の試行錯誤を整理しました。また、データマネジメントの観点で、Amazon Sagemaker (Amazon Datazone) を用いて改善できるポイントについてもご紹介します。
データ分析・活用基盤

【ここを気にした!】AWS Glue Python Shellジョブによるデータ連携

データ連携の実装でAWS Glue (Python Shell Job)を導入した際の試行錯誤を整理しました。RDSからデータレイクであるS3 Tablesに連携する際に、横展開可能な軽量なデータ連携ジョブを実現するために気にしたポイントについて紹介します。
AWS

AWS GlueのETL処理実装のハマりどころ

AWS Glueジョブを用いたETL処理のハマりどころについて、ネットワークやETL処理のエラーについて実際にあったハマりどころを紹介します。
AWS

S3 Sink ConnectorでAmazon MSKのデータをS3にバックアップする

MSKデータをS3 Sink ConnectorでS3にバックアップする方法を解説。プラグイン作成、コネクター設定、複数トピック処理の手順をステップバイステップで詳述。