查看“SGLang”的源代码

{{4}}
SGLang是一种专为大型语言模型（[[LLM]]）程序设计的结构化语言模型程序的高效执行系统。它旨在解决在编程和执行复杂[[LLM]]应用程序时遇到的效率低下问题。以下是关于SGLang的详细解释：

'''一、系统构成'''

SGLang包含前端语言和后端运行时两个部分：

'''前端语言：'''SGLang前端是一种嵌入在Python中的领域特定语言（DSL），它提供了一组专门设计用于简化[[LLM]]编程的原语。这些原语使得开发者可以对提示和生成进行操作（如extend、gen、select），并控制并行性（如fork、join）。SGLang与Python的控制流和库兼容，允许开发者使用原生Python语法轻松开发高级提示工作流。

后端运行时：SGLang后端运行时提出了几项新颖的优化技术来加速[[LLM]]程序的执行，包括RadixAttention和压缩有限状态机等。

'''二、核心技术'''

'''RadixAttention：'''此技术可在多个生成调用之间自动重用KV缓存。在现有的推理引擎中，请求的KV缓存在处理后会被丢弃，从而无法在多个调用之间重用，并会降低执行速度。而SGLang在基数树中维护KV缓存的LRU缓存，将KV缓存作为传统缓存进行管理，并使用基数树进行高效的匹配、插入和逐出。这允许运行时高效处理各种重用模式。

压缩有限状态机：此技术可实现结构化输出的更快约束解码。现有系统仅遵循下一个标记的约束，因此每次只能解码一个标记。相反，SGLang会分析这些约束并构建一个压缩有限状态机来表示它们，尽可能将多标记路径压缩为单步路径，从而可以一次解码多个标记，提高速度。

'''三、应用场景'''

SGLang可用于各种[[LLM]]应用程序，包括代理控制、逻辑推理、小样本学习基准、JSON解码、检索增强生成管道、多轮聊天和多模态处理等。通过使用SGLang，开发者可以简化[[LLM]]程序的编写，提高执行效率，并增强对[[LLM]]生成过程的控制能力。

'''四、性能优势'''

实验表明，与各种大型语言和多模态模型上的最先进推理系统相比，SGLang实现了高达6.4倍的吞吐量。这主要得益于其高效的执行引擎和针对[[LLM]]编程的专门优化。

综上所述，SGLang是一种专为大型语言模型程序设计的高效执行系统，它通过提供前端语言和后端运行时优化技术，简化了[[LLM]]程序的编写并提高了执行效率。