3月1日,据最新研究显示,新一代大语言模型在处理需要跨多轮对话完成的任务时存在性能问题。研究员菲利普·拉班及其团队对现有模型在代码、数据库、操作指令等六大任务上进行了测试,发现当信息分散在多条消息中时,模型性能显著下降。相较于集中在单次提示词里的情况,性能降幅从39%缩小到33%,但问题依然存在。
在具体任务中,Python任务的提升最为明显,部分模型仅损失10%-20%的性能。拉班指出,实际场景中的性能损失可能更严重,因为测试只使用了简单的用户模拟。如果用户在对话中途改变想法,性能下降幅度可能会更大。研究发现,调低温度值等技术微调无法解决这一问题。
研究人员建议,一旦出现异常,最好重新开启一段新对话。可以先让模型把所有请求总结一遍,再用这份总结作为新对话的起点,以提高模型在多轮对话任务中的性能。
