Google Cloud Next Tokyo’25で見たエージェント型AI時代の運用術（2/2）

こんにちは。SCSKの松渕です。

「Google Cloud Next Tokyo ’25」で発表された、AIのオブザーバビリティに関するセッションをレポート形式でまとめます！
※こちらの記事の続きです。

セッション2: AIエージェントオブザーバビリティの最前線

発表者：DataDog社

オブザーバビリティとは

オブザーバビリティとは、システムの外部から得られる情報（出力）から、そのシステムが今どのような状態にあるのかを深く理解し、推測する能力や仕組みのことです。日本語では「可観測性」と訳されます。

従来の「監視（モニタリング）」が、あらかじめ設定した特定の指標（CPU使用率、メモリ使用量など）の閾値を超えた場合にアラートを出すという「結果」に着目するのに対し、オブザーバビリティは、システム全体から収集した様々なデータを関連付けて分析し、「なぜその問題が起きたのか」という根本原因を探り出すという点で異なります。

セッション内容

早速セッションの中身に入ります！

AIのブラックボックス性

AIエージェントが生成する結果は、ブラックボックスであるという前提のお話から。

AIのブラックボックスを可視化する従来の手法

従来から以下のような手法でブラックボックス部分を可視化/評価をしているが、ブラックボックスは依然残されている状況。

プロンプト管理
プロンプトを複数実行して、結果を比較することで見える化する手法を指してます。
システム監視
AI特有ではなく、既存のシステム監視ですね。基盤となるCloudRun等の監視を指してます。
モデル評価
前の記事で触れたようなモデル評価を指してます。

AI エージェントの5つの評価観点

AIエージェントの評価観点として5つの観点を上げておりました。
「AIエージェント」に限らず、生成AI全般に有用なものだと感じました。

Issue (問題)
ユーザーが求める結果が予期せぬ動作で得られなくなる問題について、その原因を特定するために、トレースやワークフローを中心に、ツールやモデルへの推論プロセスを可視化することが重要になります。
Performance (パフォーマンス)
AIエージェントがユーザー体験を損なわない水準で応答できるかについてを評価します。
Quality (品質)
開発者の意図したルールに沿った結果を提供できているかについて、LLM応答の精度や、事実に基づかない情報を生成してしまう「ハルシネーション」の問題を含む、ユーザー体験全体を評価します。
Cost (コスト)
AIエージェントが自律的にLLM（大規模言語モデル）などを呼び出す際のAPI利用料（トークン消費量）が、当初の計画や予算を超えていないかを評価します。
Safety (安全性)
AIエージェントがセキュリティ上の脆弱性とならないよう、不正なコマンドインジェクション（プロンプトインジェクション）や機密データの漏洩を防ぐための対策が講じられているかを評価します。

AI エージェントの評価指標

先ほどの5つの評価観点の評価指標の説明がありました。

AI エージェントの評価観点　～Issueについて～

評価観点のIssue（問題）についてですが、「ハルシネーションの検知」等のAI特有の問題をしっかり可視化してくれます。
アプリケーション処理のどこの部分で起きているか、視覚的にわかりやすく表示されます。

ハルシネーションの検知方法
内部的にはLLM-as-a-judgeによりハルシネーションかどうかを評価しているとのこと。
評価用プロンプトもDataDog社のほうでテンプレートが準備されており、それをカスタマイズして利用するとのことでした。
さらには、LLM-as-a-judege側の評価が間違っている可能性も考慮されており、LLM-as-a-judge側の出力も可視化の対象とのことです。関心する一方で、使いこなすのは難しいだろうという印象を受けました。

AI エージェントの評価観点　～Performanceについて～

Performanceの評価観点については、残念ながらスライドの写真が撮れませんでした。しかし、このオブザーバビリティの強みである「ボトルネックの特定」、つまりどの処理で遅延が発生しているかを可視化する機能が提供されています。特に応答速度が課題となりやすいLLMでは、その効果を最大限に発揮できるはずです。

AI エージェントの評価観点　～Qualityについて～

ハルシネーション含むQuality(品質)の観点としては、デモでは以下4つでした。
言語のミスマッチ　といったものは、日本などの英語圏ではない国特有の評価軸だと感じました。

回答精度
ハルシネーション
インプットの感情
言語のミスマッチ

回答精度の定義
回答精度については、Ragasによる評価軸を参考にしているとのことでした。
Ragasとは、RAGの評価手法として生まれたものですが、RAG以外でもLLM全般で利用可能な評価手法（およびツール群）になります。

AI エージェントの評価観点　～Costについて～

Cost(料金)については、AI特有のトークン数等もしっかり拾って可視化してくれます。

AI エージェントの評価観点　～Safetyについて～

Safety(安全性)については、AI特有であるプロンプトインジェクションをしっかり検知して可視化しております。

AI “で” 監視する

最後に、今までの　AI “を” 監視する　話から、　AI “で” 監視するための
Bits AIというDataDog社のAIエージェントの紹介がありました。
そのBits AI含めた全体像のスライドがこちらになります。

セッション感想

LLM-as-a-judgeやRagasなど、AIに特化した評価手法が次々と生まれています。これらは、単にモデルの性能を測るだけでなく、生成物の品質や安全性を継続的にチェックする上で非常に役立ちます。DataDog社のような専門ツールを使えば、高度な評価も効率的に行え、AIの信頼性を高めていくことができます。

マイクロサービスやオブザーバビリティが注目される昨今、エージェント型AIが普及するにつれて、オブザーバビリティへの関心はますます高まるはずです。中でも、DataDog社が培ってきたシステム監視のノウハウとAIのオブザーバビリティが統合され、一つの画面でシームレスに可視化できるという点は、個人的にも大きな魅力だと感じました。

まとめ

Google Cloud Next Tokyo ’25への参加を通じて、生成AIを本番運用する上での課題と、それを解決するための具体的なアプローチが鮮明になりました。PoC（概念実証）段階を超え、ビジネスでAIを継続的に活用するためには、LLMの短いサポート期間や入力データの時間的変化に対応する「LLMOps」が不可欠です。Google CloudのPrompt OptimizerやVertex AIのようなツールは、このLLMOpsを効率的に進めるための強力な味方となるでしょう。

また、AIのブラックボックス性を克服する「AIオブザーバビリティ」の重要性も強く示唆されました。従来のシステム監視に加え、ハルシネーションの検知や回答精度の評価といったAI特有の観点を可視化するDataDog社のソリューションは、AIの信頼性と安全性を高める上で極めて重要です。

本レポートで紹介したように、LLMOpsとAIオブザーバビリティは、変化の激しいAI時代を生き抜くために必要な考えだと感じました。これらの新しい概念とツールを積極的に取り入れ、AIをより安全かつ効果的に運用していくことが、今後のビジネス成功の鍵となるでしょう。

セッション2: AIエージェント オブザーバビリティの最前線