Serving | JJ's Blog

📝 Empower Vision Applications with LoRA LMM

📝 Elastic On-Device LLM Service

📝 RServe: Overlapping Encoding and Prefill for Efficient LMM Inference

📝 Jupiter: Fast and Resource-Efficient Collaborative Inference of Generative LLMs on Edge Devices

📝 Efficiently Serving Large Multimodal Models Using EPD Disaggregation

📝 ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism