[arXiv’ 24] Infinite-LLM: Efficient LLM Service for Long Context with DistAttention and Distributed KVCache 논문 리뷰Paper: Infinite-LLM: Efficient LLM Service for Long Context with DistAttention and Distributed KVCache (Arxiv, 2024) 대규모 언어 모델(LLM) 추론 서비스에서는 요청마다 지원하는 최대 입력 문맥 길이가 크게 달라진다.예를 들어,OpenAI의 ChatGPT는 128K 토큰,구글 Gemini는 1000K 토큰,LongRoPE 연구는 2000K 토큰까지 지원한다.그러나 LLM은 AR(Autoregressive) 방식으로..