野口 碧生

AI・ML

LangChainで日本語チャンキングが文字化けする原因、TokenTextSplitterでした

LangChainのTokenTextSplitterで日本語をチャンキングすると「�」などの文字化けが発生する原因と、公式推奨の回避策を解説。RecursiveCharacterTextSplitter/CharacterTextSplitter.from_tiktoken_encoderへの置き換えコードと検証結果を掲載。
AI・ML

(シリーズ1:RAGの基本情報 / 第2回)チャンキング(チャンク化)とは:戦略の全体像、サイズ/オーバーラップ設計、失敗パターンと検証デモ

RAGで「検索は当たるのに回答が噛み合わない」原因はチャンキング設計にあることが多い。本記事ではchunk size/overlapの勘所、代表6戦略+発展2、LangChain×Vertex AI(Gemini Embedding)デモで検証方法まで整理。
AI・ML

(シリーズ1:RAGの基本情報 / 第1回)RAGとは:全体像、なぜ必要か、基本フローと設計の勘所

RAG(検索拡張生成)の定義、なぜ必要か、基本フロー(Indexing/検索/補強/生成)を整理します。
AI・ML

「その質問、ドキュメントに書いてある」問題を終わらせたい:RAG連載を始めます

社内ナレッジをRAGで活用し、膨大なドキュメントから必要情報を素早く見つける仕組みを目指します。本記事では連載開始の背景と、RAG基礎〜Bedrock実装・アプリ/エージェント構築までの構成を紹介します。
AWS

【AWS Lambda】非同期呼び出しのペイロード上限が増えたので検証してみた

AWS Lambda が非同期呼び出しの最大ペイロードサイズが1MBに増えたので、デモで確認してみた。