【Google Cloud】Gemini Enterprise Plus を使い倒す — ③Agent Platform Optimize（最適化）編

こんにちは。SCSKの島村です。

前回の Govern 編では、AIエージェントに「ガードレール」と「ハーネス」を付けてセキュリティ・統制を確保する方法を整理しました。

https://blog.usize-tech.com/gemini-enterprise-2-governance/

今回は Optimize（最適化）レイヤー としてエージェントの品質を継続的に磨き続ける仕組みを、2026年に急速に広まった Agent Harness/Harness Engineering の概念と対比しながら私なりに整理をしてみました。

エージェントは安全に動くだけでは十分ではありません。高い品質を維持し、継続的に改善されていく仕組みが必要です。作って終わりではなく、本番環境で動きながら磨かれ続けるエージェント — それを実現するのが今回ご紹介するAgent PlatformにおけるOptimize レイヤーです。

本記事では、『AIエージェントを「磨き続ける」仕組み — Agent ハーネス Engineering の視点から』について調査・整理した内容をご紹介します。

【掲載内容に関する注意事項】
本ブログの図解やインフォグラフィックスの一部については、視認性向上のため生成AI（Generative AI）を活用して作成しています。また、記事内の技術的な挙動やデータについては、Gemini Enterprise Plus ライセンス環境下での検証結果に基づいています。万全を期しておりますが、環境の差異やAI生成による細部の解釈については、公式ドキュメントと併せてご確認ください。

【「Agent Harness」「Harness Engineering」に関する注釈】
本記事で取り上げる「Agent Harness」「Harness Engineering」は、2025〜2026年にかけて複数の論者（Mitchell Hashimoto、Martin Fowler / Birgitta Böckeler、LangChain 等）が提唱・整理している概念であり、現時点では業界で定義はばらばらです。ソフトウェア工学における「テストハーネス」、安全工学における「セーフティハーネス」、そして AI 領域における「Agent ハーネス」はそれぞれ異なる文脈で使われており、論者によって範囲や力点も異なります。
本記事での整理は、これらの議論を踏まえた筆者ら独自の解釈・分類であり、特定の論者や組織の定義を代弁するものではありません。Agent Platform の Govern / Optimize レイヤーを理解するためのフレームワークとして、「ガードレール / Sensor / Guide / Steering Loop」という切り口で整理していますが、これはあくまで一つの見方です。
各論者の原著へのリンクを記事末尾に掲載していますので、より正確な定義については原典をご参照ください。

1.Agent Harness /Engineering とは何か — 2026年の新概念
2. Agent Platform の Optimize = Google が提供する「品質ハーネス」
1. 2.1 Agent Platform 全体を Agent ハーネスとして見る
2. 2.2 Optimize の4サービス — Guides / Sensors モデルで整理
3. Optimize の4サービス — 詳細解説
4. Steering Loop — Agent Platform が実現する自動改善サイクル
5. Govern × Optimize — 統一フレームワーク
6. 段階的導入ガイド — どこから始めるか
7. まとめ

1.Agent Harness /Engineering とは何か — 2026年の新概念

1.1 「ハーネス」の3つの系譜

「ハーネス」という言葉は元来「馬具」を意味し、各工学分野で独立に使われてきました。

系譜	時代	定義	特徴
テストハーネス（SE）	1980年代〜	テスト対象を制御環境に接続し、入出力を捕捉する枠組み	テスト時のみ動作。終われば除去
セーフティハーネス（安全工学）	工業の歴史	対象の動きを拘束・追跡し、危険な逸脱を防ぐ仕組み	常時動作。安全を確保
Agent ハーネス（AI / 2026年〜）	2025〜2026年	モデル以外のすべて — ツール、メモリ、ガードレール、検証、オーケストレーション	常時動作。品質+安全+実行のすべてを包含

前回の Govern 編で使った「ハーネス」は②のセーフティハーネスに近い意味でしたが、2026年の業界では③のより広い意味で使われています。

1.2 Agent ハーネスの定義 — 各論者の整理

2026年2月に Mitchell Hashimoto（HashiCorp共同創業者）が提唱し、一気に広まった概念です。

Mitchell Hashimoto の定義

「エージェントがミスをするたびに、そのミスが二度と起こらないように環境に修正を組み込む実践」

LangChain の定式化

Agent = Model + Harness

ハーネスとは、コード・設定・実行ロジックの総体。モデルに状態、ツール実行、フィードバックループ、強制制約を与えることで、初めてモデルがエージェントになる。

Martin Fowler / Böckeler（Thoughtworks）の定式化

Harness = Guides（フィードフォワード制御）+ Sensors（フィードバック制御）

Guides = エージェントが行動する前に方向を制御する仕組み
Sensors = エージェントが行動した後に観測し、自己修正を促す仕組み

1.3 なぜ定義がバラバラなのか

根本的な理由は、Agent ハーネスの定義が「モデル以外の全部」と極めて広いことです。ガードレールもテストも観測もオーケストレーションも、すべてハーネスの一部です。

つまり業界用語の「Agent ハーネス」は、前回のGovern編で対比した「ガードレール vs ハーネス」の両方を含む上位概念です。

1.4 テストハーネスから Agent ハーネスへの進化

観点	テストハーネス（従来のSE）	Agent ハーネス（2026年）
テスト対象	決定論的なコード	非決定論的なLLMエージェント
環境	テスト時のみ構築 → 除去	本番に常駐
入力制御	テストケースの手動定義	合成ユーザー（LLMが動的生成）
判定方法	アサーション（等値比較）	LLM-as-a-judge（意味的判定）
フィードバック先	人間が修正	環境が自動修正 + 人間
進化のトリガー	テスト追加（手動）	ミスのたびに環境が自動改善

決定的な違い：Steering Loop（自己修正ループ）の存在

テストハーネス：テスト失敗 → 人間が修正 → 再テスト → Pass/Fail
Agent ハーネス：品質低下検知 → Sensor が検出 → 環境が自動改善を提案 → 再評価 → 採用

2. Agent Platform の Optimize = Google が提供する「品質ハーネス」

2.1 Agent Platform 全体を Agent ハーネスとして見る

Agent Platform の4レイヤーは、業界が言う「Agent ハーネス」をエンタープライズ向けに機能分解して提供したものです。

レイヤー	Agent ハーネスにおける役割
Build	ハーネスの「構築手段」— ADK, Agent Studio でオーケストレーションを組む
Scale	ハーネスの「実行基盤」— Runtime, Sandbox, Memory で安定稼働を支える
Govern	ハーネスの「セキュリティ層」— ガードレール + セキュリティ Sensor
Optimize	ハーネスの「品質層」— 品質 Sensor + Steering Loop の自動化

2.2 Optimize の4サービス — Guides / Sensors モデルで整理

Martin Fowler / Böckeler は Agent ハーネスの構成要素を 2軸×2軸の4象限 で整理しました。Optimize の4サービスをこのモデルにマッピングします。

サービス	Guide / Sensor	Comp / Inferential	説明
Agent Observability	Sensor	Computational	トレース・メトリクスを決定論的に記録
Agent Evaluation	Sensor	Inferential	Autorater（LLM-as-a-judge）が会話品質を意味的判定
Agent Simulation	Sensor	両方	仮想ツール=Comp、合成ユーザー&スコアリング=Inferential
Agent Optimizer	Guide 生成器	Inferential	Sensor 結果から改善プロンプト（= 新 Guide）を自動生成

Optimizer の特殊な位置づけ

Evaluation / Simulation / Observability は Sensor（品質を観測する）ですが、Optimizer は「Sensor の結果を次の Guide に変換するメタ機能」です。
この変換エンジンこそが Steering Loop を自動化する中核サービスです。

3. Optimize の4サービス — 詳細解説

3.1 Agent Evaluation — 本番品質の継続 Sensor

Agent Evaluation は、本番環境で稼働中のエージェントに対して継続的に品質を計測するサービスです。
従来のモデル評価が「1つのプロンプトに対する1つの応答」を評価していたのに対し、マルチターンの会話全体を評価対象とします。

特徴	説明
マルチターン評価	会話全体の流れ・ロジック・一貫性をスコアリング
Autorater（自動評価者）	LLMを評価者として使い、人間の判断基準に近い品質スコアを自動算出
本番トラフィック対応	デプロイ後の実トラフィックに対して継続的に評価を実行
カスタム評価基準	ユースケースに応じた独自の評価メトリクスを定義可能
ターンキーダッシュボード	評価結果を可視化するダッシュボードが即利用可能

GenAI Client SDK（Python）からプログラマティックに実行でき、CI/CD パイプラインに組み込むことも可能です。

3.2 Agent Simulation — デプロイ前の品質ゲート

Agent Simulation は、エージェントを本番にデプロイする前に品質を検証するテスト環境です。
従来のテストハーネスの3要件（隔離・制御・観測）を満たしつつ、Agent 固有の要素を追加しています。

テストハーネスの要件	従来の実現方法	Agent Simulation での実現
入力の制御	テストケースの手動定義	合成ユーザー（LLMがペルソナ・目標に基づき動的に入力生成）
環境の隔離	モック / スタブ	仮想ツール環境（DB・API を仮想化、副作用なし）
出力の捕捉	アサーション	自動スコアリング（タスク成功率・安全性・効率性）
（Agent固有）マルチステップ	—	複数ターンの対話シナリオ全体を実行・評価
（Agent固有）大規模テスト	—	数千件の会話を自動生成し統計的に評価

3.3 Agent Observability — 推論過程の可視化

Agent Observability は、エージェントの内部動作をリアルタイムに可視化するサービスです。
「なぜそのような応答をしたのか」をデバッグするための完全な実行トレースを提供します。

特徴	説明
実行トレース（Traces）	リクエストからレスポンスまでの全ステップを時系列で記録
メトリクス監視	レイテンシ、トークン消費量、ツール呼び出し回数等
マルチエージェント対応	複数エージェントの連携フロー全体を追跡
MCP サーバー監視	Model Context Protocol サーバーの状態もモニタリング
OpenTelemetry 対応	標準のオブザーバビリティプロトコルに準拠。ADK には計装が組み込み済み

Google Cloud の Cloud Trace / Cloud Monitoring / Cloud Logging と統合されており、ADK の OpenTelemetry 計装を有効化するだけでテレメトリが自動送信されます。

3.4 Agent Optimizer — Sensor → Guide 変換エンジン

Agent Optimizer は、本番環境での失敗パターンを自動的にクラスタリングし、システムプロンプトの改善案を提案するサービスです。
Mitchell Hashimoto が言う「ミスが二度と起こらない環境を自動的に作る」を具現化しています。

モード	入力	プロセス	出力
Zero-shot	現在のプロンプトのみ	曖昧さ・不足・冗長を自動検出	改善されたプロンプト
Data-driven	プロンプト + ラベル付きサンプル + 評価メトリクス	反復的に実行→評価→改善	最適化されたプロンプト

4. Steering Loop — Agent Platform が実現する自動改善サイクル

4つのサービスは独立ではなく、以下のフィードバックループとして連携します。

Step	サービス	やること	自動化レベル
①	Simulation	デプロイ前に合成ユーザーで品質を検証	✓ 完全自動
②	Evaluation	本番トラフィックで継続的にスコアリング	✓ 完全自動
③	Optimizer	失敗パターンからプロンプト改善案を生成	✓ 完全自動
④	Simulation	改善版を再度テスト → 品質ゲート通過で Deploy	✓ 完全自動
横断	Observability	全フェーズの実行をトレース・可視化	✓ 完全自動

人間が担う部分

Steering Loop の設計 — 何を品質と定義し、どう計測するか
品質ゲートの閾値設定 — 合格ラインの決定
改善案の最終承認 — Optimizer の提案を採用するか否か
ハーネサビリティの維持 — コードベースを観測・改善しやすく保つ設計判断

5. Govern × Optimize — 統一フレームワーク

Govern と Optimize は同じ設計思想（ガードレール + Sensor + Guide + Steering Loop）で構築されています。違いは「何を守るか」の軸だけです。

設計パターン	Govern（安全性の軸）	Optimize（品質の軸）
ガードレール	行動の境界を越えさせない（Model Armor / Policy / Gateway）	品質の下限を割らせない（Simulation / Evaluation の閾値）
Sensor	身元・行動・通信・脅威を観測（Identity / Anomaly / Security）	推論過程・品質メトリクスを観測（Observability / Evaluation）
Guide	Policy / Gateway で事前に方向制御	Optimizer が改善プロンプトを注入
Steering Loop	Anomaly → Security → Policy更新（手動主体）	Eval → Optimizer → Simulation → Deploy（自動化）

Govern がエージェントの「安全性」を守り、Optimize がエージェントの「品質」を高める。
両方揃って初めて企業がエージェントの自律性を安心して解放できます。

6. 段階的導入ガイド — どこから始めるか

すべてを一度に導入する必要はありません。組織の成熟度に応じて段階的に構築していくのが現実的です。

Step	テーマ	サービス	ゴール	所要時間目安
1	🔬 観測から始める	Observability	内部動作が可視化されている	数時間（設定のみ）
2	📊 評価基準の定義	Evaluation	品質が数値化され追跡可能	1〜2週間
3	🧪 品質ゲート設置	Simulation	品質ゲート未通過ならデプロイ不可	数日
4	⚙️🔄 自動改善サイクル	Optimizer	品質が継続的に改善されるループが回る	2〜4週間

7. まとめ

Agent ハーネス Engineering の3つのキーメッセージ

1. Agent ハーネス = モデル以外のすべて

ガードレールもテストも観測も、すべてハーネスの一部。Agent Platform は、このハーネスをエンタープライズ向けに4レイヤー（Build / Scale / Govern / Optimize）に分解して提供しています。

2. Optimize は品質の Steering Loop を自動化する

Sensor（Evaluation / Observability）が品質を観測し、Optimizer が次の Guide（改善プロンプト）を生成し、Simulation で検証する。「ミスが二度と起こらない環境を自動的に作る」ことを目指すサービス群です。

3. Govern × Optimize で「信頼できるエージェント」が完成する

Govern が安全性の境界を守り、Optimize が品質の下限を守る。両方揃って初めて企業がエージェントの自律性を安心して解放できます。

対応表（全体サマリー）

概念	Govern（安全性）	Optimize（品質）
ガードレール	Model Armor / Policy / Gateway	Simulation / Evaluation の閾値
Sensor	Identity / Anomaly / Security	Observability / Evaluation
Guide	Policy / Gateway のルール定義	Optimizer が生成する改善プロンプト
Steering Loop	Anomaly → Security → Policy更新	Eval → Optimizer → Simulation → Deploy

次回予告

次回は Build（構築）編 として、ADK によるエージェント構築を実際にハンズオンで検証できればと思います。Agent Platform の Optimize 4サービスが検証可能になった際には、追って実践編をお届けする予定です。
今後とも、AIMLに関する情報やGoogle CloudのAIMLサービスのアップデート情報を掲載していきたいと思います。
最後まで読んでいただき、ありがとうございました！！！

【参考リンク】