国产大模型新突破:智谱GLM-5.1高速版API刷新全球速度上限
创始人
2026-05-22 10:50:36
0

5月22日,智谱宣布推出面向企业客户的GLM-5.1高速版API“GLM-5.1-highspeed”,该模型以400tokens/s的输出速度刷新了全球大模型厂商API的速度上限。这一速度的提升不仅意味着在国产大模型中首次实现了旗舰级能力和低延迟的结合,也打破了以往高速模型总是轻量级模型的行业惯例。

GLM-5.1高速版API由智谱GLM团队与TileRT团队联合打造,通过在推理引擎、调度系统与底层基础设施三个层面进行系统级优化,实现了这一速度突破。在推理引擎层,针对GLM-5.1架构特点重写核心推理路径,提升了单卡吞吐能力;在调度系统层,通过动态批处理、请求合并和KV缓存调度优化,降低了高并发场景下的尾延迟;在基础设施层,围绕推理集群部署、网络链路、负载均衡进行协同优化,确保400TPS的稳定可用。

TileRT的设计思路在于抛弃Runtime层的动态调度,在编译期将整个计算图静态编排为一个常驻GPU的persistentEngineKernel,优化了算子间的中间结果传输,减少了host调度与跨算子同步的开销。这一技术的应用使得GLM-5.1高速版在多卡尺度上也能实现高效的计算和数据处理,适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求高的场景,目前已向智谱MaaS平台的部分企业客户开放服务。

相关内容

热门资讯

广东15家单位联合启动“粤法护... 文/羊城晚报全媒体记者 鄢敏 通讯员 吁青 刘睿敏5月21日,广东省高级人民法院联合11家省直单位及...
江门一村庄遭遇洪涝,积水深1.... 连日来,受持续强降雨影响,广东省江门市台山市白沙镇郎溪村遭遇洪涝,道路积水深度已达1.5米。5月21...
不可通约的经验|2026山海训... 2026年5月26日至31日,由羊城晚报与中旅·阿那亚·九龙湖再度联合呈现的山海训练营,将在九龙湖畔...
“1元起拍!全球首款眼神交互仿... 5月22日,全球首款眼神交互仿生人“小月”在京东拍卖平台上架,由松延动力推出。这款仿生人将于今晚8点...
“新能源车价战熄火!10余家车... 近日,中国新能源汽车行业面临原材料和芯片成本上涨的挑战,导致超过10家车企上调售价或调整价格体系。比...
小米YU7GT刷新纽北纪录,3... 昨日晚间,小米发布了全新高性能SUV YU7GT,官方售价38.99万元。YU7GT以7分34秒93...
国产大模型新突破:智谱GLM-... 5月22日,智谱宣布推出面向企业客户的GLM-5.1高速版API“GLM-5.1-highspeed...
本田撤回2040年全面电动化目... 近日,本田社长三部敏宏宣布撤回2040年全面电动化的目标,承认这一目标已不现实。三部敏宏在2021年...
加州州长签署行政令:应对AI冲... 5月21日,美国加利福尼亚州州长加文·纽森签署了一项具有里程碑意义的行政命令,旨在为人工智能(AI)...
Meta大动作:裁员10%,7... 5月20日,Meta宣布了新一轮的裁员计划,涉及约8000名员工,占公司总员工数的10%。同时,70...