Tech Talks

Learning from Extremes: What Fraud-Fighting at Scale Can Teach Us About MLOps Across Domains

Learning from Extremes: What Fraud-Fighting at Scale Can Teach Us About MLOps Across Domains

MLOps World - MLOps World & Generative AI World 2024

fraud-prevention training-serving-consistency mlops machine-learning real-time-ml data-modeling feature-engineering observability agile-development data-pipelines inference scalability

How Do You Scale to Billions of Fine-Tuned LLMs

How Do You Scale to Billions of Fine-Tuned LLMs

MLOps World - MLOps World & Generative AI World 2024

cuda batching llm large-language-models fine-tuning lora inference scalability parameter-efficient-fine-tuning gpu mlops ai

Efficiently Fine-Tune And Serve Your Own LLMs

Efficiently Fine-Tune And Serve Your Own LLMs

MLOps World - MLOps World & Generative AI World 2024

Alex Sherstinsky

llm-fine-tuning predibase ludwig lorax large-language-models lora parameter-efficient-fine-tuning peft transformer-models mistral-7b model-serving inference

Building ML and GenAI Systems with Metaflow

Building ML and GenAI Systems with Metaflow

MLOps World - MLOps World & Generative AI World 2024

ai-systems ml machine-learning genai generative-ai metaflow data-engineering model-training inference python mlops

Lessons learned from scaling large language models in production

Lessons learned from scaling large language models in production

MLOps World - MLOps World & Generative AI World 2024

ray-serve large-language-models llm rag mlops gpu performance-optimization inference scaling python fastapi kubernetes vm vector-database

Leverage Kubernetes To Optimize the Utilization of Your AI Accelerators

Leverage Kubernetes To Optimize the Utilization of Your AI Accelerators

MLOps World - MLOps World & Generative AI World 2024

accelerators kubernetes kubernetes-engine ai gpu optimization training inference workloads resource-utilization cloud-computing

Memory Optimizations for Machine Learning

Memory Optimizations for Machine Learning

MLOps World - MLOps World & Generative AI World 2024

model-pruning neural-networks cpu data-quantization machine-learning llm memory-optimization quantization inference deep-learning transformer-models gpu

RAG Hyperparameter Optimization: Translating a Traditional ML Design Pattern to RAG Applications

RAG Hyperparameter Optimization: Translating a Traditional ML Design Pattern to RAG Applications

MLOps World - MLOps World & Generative AI World 2024

hyperparameter-optimization pipelines traditional-ml rag llm mlops ai generative-ai inference orchestration data-quality machine-learning

A Practical Guide to Efficient AI

A Practical Guide to Efficient AI

MLOps World - MLOps World & Generative AI World 2024

Shelby Heinecke

ai artificial-intelligence machine-learning llm large-language-models model-optimization quantization small-language-models function-calling prompt-engineering inference model-efficiency

How to Run Your Own LLMs, From Silicon to Service

How to Run Your Own LLMs, From Silicon to Service

MLOps World - MLOps World & Generative AI World 2024

llms large-language-models mlops machine-learning-operations inference gpu quantization tensorrt-llm vllm modal-labs model-serving ai-engineering

Building Composite LLM Systems

Building Composite LLM Systems

MLOps World - MLOps World & Generative AI World 2024

llm large-language-models open-source artificial-intelligence machine-learning ensemble-methods model-specialization nlp generative-ai mlops inference training