Cookbooks

Leverage the power of large language models to evaluate your generative model or application for hallucinations, toxicity, relevance of retrieved documents, and more.

Common Evaluations

Hallucination Evals

Toxicity Evals

Summarization Evals

Evaluations Use Cases

Retrieved Document Relevance

Code Readability Evals

Question-Answering Evals

Evaluating Agents using Ragas

Evaluating and Improving RAG Applications

End-to-End RAG Application Evaluation

LlamaIndex Application

LlamaIndex Application using Milvus Vector Store

PreviousText2SQL NextEvaluate RAG

Last updated 1 month ago

Was this helpful?