金牌影院

Managing the KV Cache Bottleneck in Large Language Model Inference

发布者:曹玲玲发布时间:2025-12-13浏览次数:10

报告人:陈雷 教授 香港科技大学(广州)

主持人:张敏灵

报告时间:2025年12月16日(周二)下午15:30-16:30

报告地点:金牌影院 九龙湖校区计算机楼513室

报告摘要:As large language models (LLMs) increasingly underpin mission-critical applications across industries, optimizing their inference efficiency has emerged as a critical priority. The management of the Key-Value (KV) cache, which stores the reusable computation intermediates during generation, has become the most prominent bottleneck for LLM inference optimization.

In this talk, we examine recent advancements in system-level and algorithmic advances in KV cache management, emphasizing (1) online approaches that dynamically allocate computational and memory resources during inference, and (2) offline strategies that precompute, structure, and compress the KV cache as the explicit memory for LLM. We evaluate techniques optimized for diverse operational contexts, spanning traditional chatbot serving and knowledge-enhanced question answering, and discuss corresponding architectural optimizations. Finally, we outline promising research directions to further address challenges in multi-instance inference. These advancements are crucial for enabling scalable enterprise solutions as LLMs expand into knowledge-enhanced, latency-sensitive, and high-throughput industrial applications.

报告人简介:陈雷教授,香港科技大学(广州)讲座教授、博导,ACM、IEEE Fellow,于2005年自加拿大滑铁卢大学毕业,获计算机科学博士学位,同年加入香港科技大学任教,历任助理教授、副教授、教授、讲座教授,于2020年加入香港科技大学(广州),现任信息枢纽院长。他长期服务于数据库与大数据领域多个学术团队,作为首位中国学者担任国际数据领域学术组织VLDB基金会主席,目前担任CCF-A类期刊《IEEE Transactions on Knowledge and Data Engineering》主编。他曾任CCF-A类期刊《The VLDB Journal》的副主编,CCF-A类会议VLDB 2024的大会主席、ICDE 2023及VLDB 2019的程序委员会联席主席、IJCAI China 2025联席主席。近年来,陈雷教授在国家重点研发计划、国自然联合基金重点支持项目、国自然海外及港澳学者合作研究基金等项目的持续支持下,重点围绕大数据管理与计算开展理论攻关和系统研发,取得一系列创新性研究成果,荣获2015年SIGMOD十年最佳论文奖、2022年VLDB最佳论文奖、2014年VLDB卓越演示奖。


  • 联系方式
  • 通信地址:南京市江宁区金牌影院 路2号金牌影院 九龙湖校区计算机学院
  • 邮政编码:211189
  • ​办公地点:金牌影院 九龙湖校区计算机楼
  • 学院微信公众号