データ分析・活用基盤

AWS

【ここを気にした!】Amazon Bedrockを活用したWebクローリング&名寄せ構想

Webクローリングおよび名寄せの検証において、AWS lambdaとAmazon Bedrockを活用したデータ収集アーキテクチャを検討した際の試行錯誤を整理しました。従来のルールベースのクローリングと比較し、生成AIを用いた柔軟な情報抽出を取り入れることで、サイト構造の差異に耐えるデータ収集方式をどのように実現したか、また収集データと既存マスタを突合する名寄せの課題についても紹介します。
AWS

【ここを気にした!】Amazon Redshiftで構築するBI向けデータマート

今回は、データの可視化・分析において、Amazon Redshiftを用いて事前集計アーキテクチャの見直しを行った際の試行錯誤を整理しました。また、データマネジメントの観点で、Amazon Sagemaker (Amazon Datazone) を用いて改善できるポイントについてもご紹介します。
データ分析・活用基盤

【ここを気にした!】AWS Glue Python Shellジョブによるデータ連携

データ連携の実装でAWS Glue (Python Shell Job)を導入した際の試行錯誤を整理しました。RDSからデータレイクであるS3 Tablesに連携する際に、横展開可能な軽量なデータ連携ジョブを実現するために気にしたポイントについて紹介します。
AWS

AWS GlueのETL処理実装のハマりどころ

AWS Glueジョブを用いたETL処理のハマりどころについて、ネットワークやETL処理のエラーについて実際にあったハマりどころを紹介します。
AWS

S3 Sink ConnectorでAmazon MSKのデータをS3にバックアップする

MSKデータをS3 Sink ConnectorでS3にバックアップする方法を解説。プラグイン作成、コネクター設定、複数トピック処理の手順をステップバイステップで詳述。
AWS

MSKをCloudFormationで運用する際の注意点2

MSK構成変更に2段階適用が必要。Configurationリビジョン更新とクラスタ切り替えの手順を詳述し、安全な運用を解説。
AWS

MSKをCloudFormationで運用する際の注意点1

CloudFormationでMSK運用時の注意点。複数プロパティ同時変更不可の制約、エラー回避のための段階的変更とベストプラクティスを解説。
AWS

Amazon MSK のスケールアップ / スケールアウト

MSKのスケールアップとスケールアウトの違い、注意点、公式推奨を解説。IP消費、料金増加、パーティション再配置などのリスクを詳述。
AWS

Amazon MSKを使うときに知っておきたいベストプラクティス

Amazon MSKの高可用性ベストプラクティスを解説。レプリケーションファクタ、min.insync.replicas設定、クライアント接続、AZ配置、モニタリング、ブローカータイプ選択、サブネット設計などの注意点を詳述。
AWS

【ここを気にした!】Amazon S3 Tablesで構築するデータ基盤

データ基盤の構築でIceberg (S3 Tables)を導入した際の試行錯誤を整理しました。従来のS3によるファイル格納型のデータレイクと比較し、Icebergを採用することで得られたメリットや、それをマネージドで扱えるS3 Tablesの利便性について紹介します。