インスピレーションと洞察から生成されました 4 ソースから

img6

img7

img8

img9

img10

img11

はじめに

  • RAGASは、RAGシステムの評価を行うためのフレームワークです。

  • バージョン0.1では、3つの基本的な評価指標が存在しました:Faithfulness, Answer Relevance, Context Relevance

  • バージョン0.2では、新たに9つの指標が追加され、評価の視点が拡充されています。

  • 新しく追加された指標には、Context PrecisionやAnswer Semantic Similarityなどがあります。

  • これらの指標は、生成された回答の品質やコンテキストの適切性を多角的に評価するために重要です。

RAGASとは [1]

  • RAGASは2023年9月に提案されたRAGシステムの評価フレームワークです。

  • このフレームワークは、多角的な視点でRAGシステムの評価を行います。

  • アノテーションデータなしで自動評価が可能です。

  • OpenAI APIを使用して、評価用プロンプトを使用します。

  • 主要な評価点には、コンテキストの適切な取得、LLMの忠実な利用、生成した回答の品質があります。

img6

img7

バージョン0.1の評価指標 [1]

  • バージョン0.1でのRAGASの評価は、叶な指標に依存していました。

  • Faithfulness: 生成された回答が与えられたコンテキストに基づいているかを測定。

  • Answer Relevance: 生成された回答が元の質問にどれだけ適切であるかを測定。

  • Context Relevance: 取得したコンテキストの適切性を測定。

  • これらの指標はRAGシステムの基本的性質を評価するためのものでした。

バージョン0.2の評価指標 [1]

  • バージョン0.2では、新たに9つの指標が定義されています。

  • Context PrecisionとContext Recallという新たな指標は、コンテキストの評価精度を測るものです。

  • Answer Semantic Similarity: 生成された回答と正解の意味的類似性を評価。

  • 新指標には、Answer CorrectnessやAspect Critiqueも含まれます。

  • これらの指標は、評価の主要な視点の拡張を示しています。

各評価指標の詳細 [1]

  • Faithfulness: コンテキストに基づいているかの正答率を計算。

  • Answer Relevance: 生成された回答から逆に質問を生成し、コサイン類似度を計算。

  • Context Precision: 正確な関連アイテムの高順位評価。

  • Answer Semantic Similarity: 意味的類似性のコサイン類似度を計算。

  • Aspect Critique: 特定視点(正確性、簡潔性など)に基づき評価。

img6

精度指標の拡張 [1]

  • 新たな指標の追加により、多様なユースケースへの対応が可能に。

  • 評価の自動化:LLM APIを活用し、アノテーションデータを不要に。

  • 拡張された指標には、エンティティのカバレッジやサマリーの質も包括。

  • これにより、特定のニーズに応じたカスタマイズ評価も実現可能。

  • バージョン0.2での改良は、評価の柔軟性と公平性を強化。

関連動画

<br><br>