はじめまして。吉越です。
今回、6月25日に開催されていたAWS Summit2025へ参加して持ち帰ってきた話をブログにまとめようと思います。
はじめに
早速ですが、みなさんにSNSで話題となったラーメン山岡家のブースの「ゆで麺タイマー」のアーキテクチャをお見せします!
AWS Summitの企業ブースに山岡家がある~と思って近づいたところ、ゆで麺タイマー(?)というものがAWSで構築されているのかぁと面白くて気づいたら資料くださいって声かけてました。
色々なセッションを聞いてから家に帰り、山岡家の資料をもう一度読み返してみました。
すると、ここにも「SnowFlake」があるなぁ、という感想でした。
なぜなら同日に聴講したパートナーセッション「PayPayのAI DataCloudが目指す最先端アーキテクチャ」でもSCSKブースのミニセッションでも「Snowflake」を扱っていたからです。もしかして今アツいサービスなのかもしれないという予感がしてきました。
また、私はお客様のインフラ基盤の保守運用を行っているので、サービスの提案や導入をする立場にあるということで、
AWSパートナーセッションで聞いた内容をもとに、お客様の環境へ導入検討できないかという視点で記事を書こうと思います。
セッションから考えるSnowFlakeの導入検討
パートナーセッション「PayPayのAI Data Cloudが目指す最先端アーキテクチャの実装」を聴講して
このセッションで伝えたかったことは「Snowflakeによるデータ基盤構築のメリット」と「3か月でデータ基盤環境を構築し社内公開の達成」ということでした。そのため、今回はこの2点について書きます。
まずなぜPayPayがこのデータ基盤を必要としたのかというと、それはユーザ増加に伴うデータ基盤の拡張性と柔軟性を求めていたからです。
上記のとおり、コード決済は2023年に比べても2024年では23%増えており、ここ数年でも大きく成長しています。
そのような中でデータ基盤の構築することにより、データをより効果的に活用し今後の更なるビジネス成長や拡大に狙いがありました。
このようなメリットがあるわけでデータ基盤を構築するわけですが、まず事前に知っておきたいPayPayのデータ基盤のアーキテクチャです。
このように支払いデータは、インフラ基盤→Data Lake(S3)→Data Warehouse(Snowflake)→Data Analytics ML/AI(SnowFlake等) の流れで格納、加工、分析され活用されています。
PayPayはデータ基盤の構築のためにSnowFlakeを導入しますが、ではなぜSnowflakeだったのでしょうか。
以下、PayPayがもっていた課題とその解決策、そこから見たSnowflakeのメリットをまとめて表にします。
課題 | 解決 | Snowflakeのメリット |
・短期間かつ少人数で迅速に構築する必要があった ・インフラ運用工数を削減し、データ基盤開発に集中したい |
◎短期間かつ少人数で迅速にデータ基盤の構築ができた ◎マネージド型サービスとニアゼロメンテナンスで開発に集中 |
マネージドサービス型で迅速なデータ基盤を構築 |
・急速な事業成長に比例して柔軟にスケールしたい ・状況に応じて迅速に対応できる機敏性 |
◎Multi-clusterのスケーラビリティは十分/使用感は控えめに言っても最高 ◎必要なときに、必要な量を、利用できる柔軟性を確認 |
高いスケーラビリティ・アジリティ |
・特にコンピュートリソースの統制が課題 ・誰がどれくらい使っているか可視化したい |
◎シンプルかつ透明性の高いコスト統制が可能に | 透明性の高いコスト統制 |
つまり、Snowflakeの強みは、スモールスタートでスピード感をもって導入できることと、大量の処理を高速にかつ柔軟にスケールすることができる拡張性もつ製品であることが分かります。
もちろん、この他にもデータウェアハウスサービスにはGoogle CloudのBigQueryやAWSのRedshiftなどがありますが、PayPayはこの中でもスモールスタートでコスト効率が高くデータ基盤を構築でき、かつ、S3に格納しているデータとの互換性が高いということでSnowflakeを選んでいるわけです。
次にどのようしてデータ基盤構築プロジェクトを3か月で達成したのかについて以下を実装したとのことでした。
■インフラリソースはTerraformで構成管理
■Data Pipelineの実装
■AWS GlueによるサーバレスなApache Sparkの実行環境として利用
特に私がこの中で興味深かったのは「Data Pipelineの実装」でした。
上記添付のようにAmazon MWAA(Airflow DAG)を使ってデータを加工し、SnowflakeでDDL/DMLを実行を行うことでスキーマの作成・変更やデータの投入・更新処理が自動化されます。これにより人的な作業を減らすことができ、迅速なデータ基盤の構築ができたということでした。MWAAとは他のAWSサービス(Glue、Fivetranなど)と連携できるため、ETL処理とDDL/DMLの実行を統合し、一連のフローとして管理できます。これによって処理の一貫性と再現性が向上します。
また、Snowflakeは大量データの処理を高速かつ柔軟に行うことができます。MWAAからDMLの実行によって、必要なタイミングで必要なデータを投入できる仕組みを整えることを実現したとのことでした。
実装したこと全ては記載できていないですが、これらを使ってPayPayは3か月でデータ基盤環境を構築、社内公開を達成することができたのでした。。!
この項目の最後に、私はパートナーセッションでSnowflakeの存在を知りましたが、AWS Summitに行っていなければ、まだSnowflakeを知らずにいたと思います。SnowflakeはPayPayという大手決済システム企業で導入されている実績もあり信頼と実績のある製品だと感じました。
導入検討に向けて考えたこと
それでは、PayPayのパートナーセッションを聞いてみて、実際にSnowflakeを導入しようとなった場合の検討事項を3つ考えてみました。
さっそく挙げていきたいと思います!
検討事項1.データ基盤がクラウド上に構築されていること
まず、PayPayではインフラ環境がAWSで構築されています。(以下添付参照)
資料:AWS Summitに出展・登壇しました! | PayPay Inside-Out
SnowflakeはAWSやAzure、Google Cloudのクラウドプラットフォーム上で動作します。ユーザーはSnowflakeでアカウントを作成し、これらいづれかのクラウドプロバイダーの基盤を選択し、ブラウザやSQLクライアントなどからデータベースにアクセスして利用します。
そのため、もし担当しているお客様環境でクラウドプラットフォームが整備されていない場合には導入の実現はできません。
PayPayが迅速にデータ基盤構築のためにSnowflakeを導入できたのは、そもそもAWS環境でプラットフォームが整っていたことも起因しています。
検討事項2.DataLake環境が必要となる
もう一度、↑の画像をみてもらうと分かりますが、PayPayのインフラ環境では、そもそもクラウドプラットフォーム上にData Lake環境があります。
Snowflakeはデータを取り込む際、まずはクラウドストレージ(S3, GCS, Azure Blob Storageなど)を経由する必要があります。これらのクラウドストレージを利用できないと、データの取り込みができません。また、クラウドストレージに格納された後、データでETL(抽出、変換、ロード)処理のジョブを作成をする必要があります。これはGlue ETL、Cloud Data Fusion, Azure Data Factory (ADF)などでサービスを活用する必要があります。
加えて、Snowflakeへデータを連携するためにデータカタログが必要となる場合もあります。
このようなData Lake環境がSnowflake導入に必要であるため、それなりに新しい技術への知見が必要になることが分かります。
検討事項3.導入で得られるメリット
上記2つの課題は技術的な観点での課題でしたが、最後はビジネスメリットについてです。
PayPayでは急速な事業成長に比例して迅速に、かつ柔軟にスケールできるデータ基盤を構築することを求めていました。
パートナーセッションではSnowflakeはこのような状況で非常に高い効果を出すことができることができるように見受けられました。
このような状況化での導入によるメリットは検討できますが、データ活用によるメリットが薄い場合には検討することすら難しいかもしれません。
もちろんPayPayは1つの事例であり、Snowflakeの導入事例は多くあるため、お客様の状況に応じて検討するのが最適です。
参考までに導入事例に関するサイトです。
サイトURL:Snowflake:全てのお客様事例
Snowflakeの事例一覧 | クラスメソッド株式会社
お客様環境で実装はできるのか
結論、上記課題を乗り越えて実装することは可能だが、お客様の環境でビジネスメリットを検討した上で導入ができる、です。
課題を乗り越えて実装する場合、例えば今すぐには技術的に難しいもののお様側で環境が整えば活用したい場合、SCSKで提供しているサービスを提案したり、その他代理店で販売しているベンダーに声をかけることもできます。
※SCSKではSnowflake社と販売代理店契約を締結し、国内におけるSnowflakeの販売が可能となりました。また、SnowFlakeを最短 5 日で使い始められるサービスを提供しています。このサービスを上手く活用しつつ導入することを検討できるかもしれません。
サイトURL:Snowflakeソリューション│SCSK株式会社|サービス|企業のDX戦略を加速するハイブリッドクラウドソリューション
また、そもそもビジネスメリットがあるか分からず検討している場合には、まずはSnowflakeにて公式の導入事例などをみてイメージしてみることもできます。例えば金融業界においては金融資産に関する最適な提案に活用することや、審査の迅速化による業務効率化を図ることもできるようになります。他にもメーカーなどでは様々なデータやデバイスからデータが生成されサイロ化しています。そのデータを統一化することで、IoTデータ活用によるリアルタイムモニタリング、予知保全などにも有用です。
このようなメリットをお客様と一緒に検討し、さらには新しい顧客体験を一緒に考えていくことができるかもしれません。
おわりに
そんなわけで、Snowflakeって名前は寒そうだけど、サービスとしてはアツかったです。
データ活用における最先端技術が利用できる製品である一方で、お客様の環境で実装可能なのか、利用するシチュエーションでメリットがどのくらいあるか等、検討する上での課題や弊害も多く存在すると感じました。
ただ今後も、PayPayのようなデータ活用を行う企業は増えていく考えられ、そのような状況でお客様に提案するためには一緒にデータ活用の目的やメリットを考え、共創していくことが必要なのだと思いました。
それでは、ここまで読んでいただきありがとうございました!