Memory Optimizations for Machine Learning

December 05, 2024 32 min Free

MLOps World - MLOps World & Generative AI World 2024

model-pruning neural-networks cpu data-quantization machine-learning llm memory-optimization quantization inference deep-learning transformer-models gpu

Description

This talk explores memory optimization strategies crucial for deploying Machine Learning models, especially Large Language Models (LLMs). It delves into the memory footprint of ML data structures and algorithms, detailing techniques like data quantization and model pruning. A significant focus is placed on optimizing LLM inferencing, discussing factors affecting their memory usage and practical strategies for memory conservation without compromising performance. The presentation also touches upon hardware considerations and real-world examples of memory optimization in ML.

Up Next

On-Device ML for LLMs: Post-Training Optimization Techniques with T5 and Beyond

On-Device ML for LLMs: Post-Training Optimization Techniques with T5 and Beyond

MLOps World - MLOps World & Generative AI World 2024

Sri Raghu Malireddi

on-device-ml llms t5 model-optimization quantization pruning layer-fusion inference-optimization latency-reduction edge-devices mlops grammarly

A Practical Guide to Efficient AI

A Practical Guide to Efficient AI

MLOps World - MLOps World & Generative AI World 2024

Shelby Heinecke

ai artificial-intelligence machine-learning llm large-language-models model-optimization quantization small-language-models function-calling prompt-engineering inference model-efficiency

Large Language Model Training and Serving at LinkedIn

Large Language Model Training and Serving at LinkedIn

MLOps World - MLOps World & Generative AI World 2024

llm large-language-models ai machine-learning mlops training gpu kubernetes python tensorflow pytorch kernels optimization memory-management transformer

Running Multiple Models on the Same GPU, on Spot Instances

Running Multiple Models on the Same GPU, on Spot Instances

MLOps World - MLOps World & Generative AI World 2024

ml-inference spot-instances gpu-fractionalization gpu cost-optimization generative-ai llm cloud-computing aws gcp azure mlops

Enhance Cost Efficiency in Domain Adaptation with PruneMe

Enhance Cost Efficiency in Domain Adaptation with PruneMe

MLOps World - MLOps World & Generative AI World 2024

domain-adaptation continual-pretraining ai-research llm large-language-models pruning cost-efficiency model-optimization transformer nlp