LLM Evaluation to Craft Delightful Content From Messy Inputs

May 15, 2024 33 min Free

MLOps World - MLOps World & Generative AI World 2024

content-generation text-summarization evaluation-framework information-extraction llm large-language-models natural-language-processing nlp machine-learning evaluation-data api-design

Description

This talk explores an evaluation framework for the quality of LLM outputs, focusing on transforming diverse and messy textual inputs into delightful content. It goes beyond general LLM evaluation metrics like relevance and fluency to include specific metrics such as overall information preservation rate, accuracy of titles/headings understanding, and key information extraction score. This framework aims to provide measurable metrics that can be generalized to similar LLM tasks, particularly for generating detailed summaries from design inputs based on design types. The talk also touches upon the challenges of objectively evaluating LLM outcomes due to the subjective and unstructured nature of content generation.

Up Next

29 min

Evaluation Engineering: Iterative Strategies to Testing Prompts

MLOps World - MLOps World & Generative AI World 2024

Jared Zoneraich

evaluation-engineering backtesting regression-testing prompt-engineering testing test-driven-development ai machine-learning llm natural-language-processing

30 min

Measuring the Minds of Machines: Evaluating Generative AI Systems

MLOps World - MLOps World & Generative AI World 2024

Jineet Doshi

generative-ai llm llm-ops human-evaluation llm-as-judge security rag agents tool-use

1h 41m

Evaluation Techniques for Large Language Models

MLOps World - MLOps World & Generative AI World 2024

Rajiv Shah

functional-correctness similarity-metrics large-language-models llm ai machine-learning benchmarking nlp natural-language-processing hugging-face prompt-engineering

39 min

Investigating the Evolution of Evaluation from Model Training to GenAI Inference

MLOps World - MLOps World & Generative AI World 2024

Anish Shah

generative-ai large-language-models llm evaluation-metrics model-training fine-tuning ai-ethics bias-detection toxicity-detection natural-language-processing machine-learning

30 min

Evaluating LLM-Judge Evaluations: Best Practices

MLOps World - MLOps World & Generative AI World 2024

Aishwarya Reganti

llm llm-evaluation generative-ai ai-collusion evaluation-metrics machine-learning mlops prompt-engineering large-language-models ai-bias

46 min

Towards Robust GenAI: Techniques for Evaluating Enterprise LLM Applications

MLOps World - MLOps World & Generative AI World 2024

Dhruv Singh

ai-applications llm-evaluators generative-ai genai llm large-language-models testing enterprise-ai reliability guardrails human-evaluation

Back to Home