【Amazon Bedrock】ナレッジベースを用いた社内資料管理ーめざせ生産性向上ー

こんにちは　SCSK株式会社の坂木です。

ところで、社内資料の管理、効率的ですか？

様々な形式の文書が散在し、必要な情報を探すのに時間を取られていませんか？
ファイルサーバーの奥底に埋もれどこにあるか分からない、バージョン管理が混乱する、などといった課題を抱えていませんか？
これらの非効率は、業務の生産性低下に直結します。今こそ、社内資料の一元管理体制を見直しましょう！

ということで、AWS Bedrockのナレッジベースを用いた資料の一括管理およびその検索方法をご紹介します！

Amazon Bedrockについて
事前準備
ナレッジベースの作成
検索
まとめ

Amazon Bedrockについて

Amazon Bedrockは、AWSが提供するフルマネージドサービスで、簡単に生成AIアプリケーションを構築できます。基盤モデルと呼ばれる大規模言語モデルをAPI経由で利用可能で、テキスト生成やチャットボット、要約、翻訳など、多様なユースケースに対応しています。

特に便利なのが、ナレッジベース機能です。ナレッジベースとは、社内文書やFAQなど、組織固有の情報を集めたデータベースのことです。Bedrock と接続すれば、AI がナレッジベースの内容を学習し、より精度の高い回答や情報を生成できます。

事前準備

今回は、「データ1.txt」「データ2.xlsx」「データ3.docx」の3つのファイルをもとにデータベースを作成します。
各ファイルには料理のレシピが記載されています。

S3バケットを作成し、対象のデータをアップロードします。

このとき、ナレッジベースにサポートされているファイルの拡張子は「.txt」「.md」「.html」「.doc/.docx」「.csv」「.xls/.xlsx」「.pdf」となります。これら以外の拡張にて管理しているファイルは、一度拡張子を変換してからS3へアップロードする必要があります。

Amazon Bedrock ナレッジベースデータの前提条件 - Amazon Bedrock

ナレッジベースにデータを使用する前に、必要な前提条件について説明します。

ナレッジベースの作成

Bedrock/ナレッジベースから、画像の画面へ遷移し「ナレッジベースを作成」を選択します。

今回はデータソースをS3へ保存しているため、Choose data sourceは「Amazon S3」を選択します。
その他の選択肢はデフォルトで、「次へ」を押します。

S3のURL
事前準備にて作成したS3バケットを選択します。
Parsing strategy
今回はデータソースがテキストベース資料のみのため、テキストのみを解析する「default parser」を選択します。データソースに画像を含めている場合はFoundation modelsを選択することで、画像の解析が可能となります。

データソースの解析オプション - Amazon Bedrock

解析とは、未加工データに含まれているコンテンツを理解し、抽出することを指します。Amazon Bedrock ナレッジベースには、取り込み中にデータソースを解析するための以下のオプションがあります。

その他の選択肢はデフォルトで、「次へ」を押します。

今回は埋め込みモデルの中で最も料金の安い「Titan Embeddings G1」を選択します。その他の選択肢はデフォルトで、「次へ」を押します。

Amazon Bedrock Pricing – AWS

設定を確認してナレッジベースを作成します。以上で、ナレッジベースの作成は完了です。

検索

続いて、作成したナレッジベースを用いてデータソースの内容を検索していきます。
作成したナレッジベースの画面から、生成AIモデルを選択します。筆者はClaude AI推しなので今回は「Claude 3.5 Sonnet 」を選択しました。

ナレッジベースを作成後、デフォルトの状態ではデータソースが同期されていません。

そのため、データソースの項目から対象のデータソース(今回の場合だと事前準備で作成したs3)を選択し、同期ボタンを押します。また、S3に追加の資料をアップロードした場合は、追加のたびに同期ボタンを押して最新のS3の状況を反映させる必要があります。

では、いよいよ検索していきます。「データ1.txt」に記載のあるスクランブルエッグの作り方について聞いてみようと思います。

データ1.txtには「ボウルに卵を割り入れ、塩とコショウを加えて混ぜる。フライパンにバターを溶かし、卵液を入れる。中火でかき混ぜながら、好みの固さになるまで加熱する。」という手順が記載されていたため、同様の回答が出力されれば成功です。

聞いてみた結果、言葉は多少違いますが概ね同じ内容の出力が得られました。また、[1]をクリックすると回答に際してどのファイルを参照したのか分かります。そのため、質問に対して回答となる社内資料をすぐに見つけられ、ファイルサーバから対象の資料を探す手間が省けます。

次に、データソースにない料理レシピである「ます寿司」の作り方について聞いてみようと思います。

聞いてみた結果、ます寿司の作り方はデータソースに無いと返されました。データソースにナレッジが無い場合は、web上の精度が曖昧な回答をするのではなく、データソースに無いと回答をもらえるようです。そのため、提供される情報は登録済みのデータに基づいており、捏造や誤った情報を返すリスクが抑えられます。