查看“SGLang”的源代码
←
SGLang
跳转至:
导航
、
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
{{4}} SGLang是一种专为大型语言模型([[LLM]])程序设计的结构化语言模型程序的高效执行系统。它旨在解决在编程和执行复杂[[LLM]]应用程序时遇到的效率低下问题。以下是关于SGLang的详细解释: '''一、系统构成''' SGLang包含前端语言和后端运行时两个部分: '''前端语言:'''SGLang前端是一种嵌入在Python中的领域特定语言(DSL),它提供了一组专门设计用于简化[[LLM]]编程的原语。这些原语使得开发者可以对提示和生成进行操作(如extend、gen、select),并控制并行性(如fork、join)。SGLang与Python的控制流和库兼容,允许开发者使用原生Python语法轻松开发高级提示工作流。 后端运行时:SGLang后端运行时提出了几项新颖的优化技术来加速[[LLM]]程序的执行,包括RadixAttention和压缩有限状态机等。 '''二、核心技术''' '''RadixAttention:'''此技术可在多个生成调用之间自动重用KV缓存。在现有的推理引擎中,请求的KV缓存在处理后会被丢弃,从而无法在多个调用之间重用,并会降低执行速度。而SGLang在基数树中维护KV缓存的LRU缓存,将KV缓存作为传统缓存进行管理,并使用基数树进行高效的匹配、插入和逐出。这允许运行时高效处理各种重用模式。 压缩有限状态机:此技术可实现结构化输出的更快约束解码。现有系统仅遵循下一个标记的约束,因此每次只能解码一个标记。相反,SGLang会分析这些约束并构建一个压缩有限状态机来表示它们,尽可能将多标记路径压缩为单步路径,从而可以一次解码多个标记,提高速度。 '''三、应用场景''' SGLang可用于各种[[LLM]]应用程序,包括代理控制、逻辑推理、小样本学习基准、JSON解码、检索增强生成管道、多轮聊天和多模态处理等。通过使用SGLang,开发者可以简化[[LLM]]程序的编写,提高执行效率,并增强对[[LLM]]生成过程的控制能力。 '''四、性能优势''' 实验表明,与各种大型语言和多模态模型上的最先进推理系统相比,SGLang实现了高达6.4倍的吞吐量。这主要得益于其高效的执行引擎和针对[[LLM]]编程的专门优化。 综上所述,SGLang是一种专为大型语言模型程序设计的高效执行系统,它通过提供前端语言和后端运行时优化技术,简化了[[LLM]]程序的编写并提高了执行效率。
该页面使用的模板:
模板:4
(
查看源代码
)
返回至
SGLang
。
导航菜单
个人工具
登录
名字空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
社区主页
新闻动态
最近更改
随机页面
帮助
华师附中老三届
站群链接
社友网(sn)
产品百科(cpwiki)
产品与服务(sn)
社区支持农业(sn)
工具
链入页面
相关更改
特殊页面
页面信息