Tech Talks

Enhance Cost Efficiency in Domain Adaptation with PruneMe

Enhance Cost Efficiency in Domain Adaptation with PruneMe

MLOps World - MLOps World & Generative AI World 2024

domain-adaptation continual-pretraining ai-research llm large-language-models pruning cost-efficiency model-optimization transformer nlp

A Practical Guide to Efficient AI

A Practical Guide to Efficient AI

MLOps World - MLOps World & Generative AI World 2024

Shelby Heinecke

ai artificial-intelligence machine-learning llm large-language-models model-optimization quantization small-language-models function-calling prompt-engineering inference model-efficiency

Mastering Enterprise-Grade LLM Deployment: Overcoming Production Challenges

Mastering Enterprise-Grade LLM Deployment: Overcoming Production Challenges

MLOps World - MLOps World & Generative AI World 2024

llm deployment enterprise-ai machine-learning-operations mlops gpu-management model-optimization data-security compliance ai-infrastructure latency-reduction

On-Device ML for LLMs: Post-Training Optimization Techniques with T5 and Beyond

On-Device ML for LLMs: Post-Training Optimization Techniques with T5 and Beyond

MLOps World - MLOps World & Generative AI World 2024

Sri Raghu Malireddi

on-device-ml llms t5 model-optimization quantization pruning layer-fusion inference-optimization latency-reduction edge-devices mlops grammarly