近日,谷歌的最新研究揭示了人工智能模型在解题时的一种独特现象。研究发现,像DeepSeek-R1这样的顶尖推理模型在处理问题时,会内部“分裂”出不同性格的虚拟人格,如外向型、严谨型、多疑型等,它们在模型内部进行一场精彩的社交和辩论。这种内部观点冲突在面对高难度任务时变得更加激烈,而在处理简单任务时则明显减少。
研究团队通过稀疏自编码器SAE对AI的推理过程进行了深度解码,成功“监听”到了AI的脑内群聊。他们让AI执行复杂的数学或逻辑推理任务,并同步提取其隐藏层神经元的激活数值。通过SAE的稀疏约束机制,将复杂的激活数据拆解为独立的对话语义特征,识别出不同的内部逻辑实体,并给这些特征打上虚拟角色的标签,解码了AI内部的多角色对话行为。
此外,实验还发现,通过强化模型的对话特征,如添加“哦!”这类表达惊讶、转折的话语标记,可以显著提高模型在Countdown算术推理任务中的准确率。这一发现与人类演化生物学中的社会脑假说相呼应,表明AI为了变得更聪明,也需要学会与不同“人格”进行社交。


