1月29日,最新研究显示,开源大语言模型若在外部计算机上运行,可能成为黑客和犯罪分子轻易劫持的目标,带来新的安全漏洞与风险。攻击者可以直接针对运行大语言模型的主机下手,操控模型生成垃圾信息、编写钓鱼内容、发动虚假信息宣传,绕开大型平台原有的安全机制。这项研究由SentinelOne与Censys两家网络安全公司历时293天联合完成,揭示了数千个开源大语言模型部署背后潜在的非法用途规模。
研究人员称,风险场景涵盖黑客攻击、仇恨言论与骚扰、暴力血腥内容生成、个人数据窃取、诈骗与欺诈,甚至在个别情况下还涉及儿童性虐待材料。开源大语言模型变体数量庞大,互联网上可访问的运行实例中,相当一部分来自Meta的Llama、谷歌DeepMind的Gemma等主流模型的衍生版本。部分开源模型自带护栏,研究仍发现数百起护栏被明确移除的情况。
研究团队重点分析了通过Ollama部署、对公众开放访问的开源大语言模型实例。Ollama是一种工具,个人或机构可在本地运行不同模型的自有版本。研究人员在约四分之一的观察对象中能够读取系统提示词,也就是决定模型行为的核心指令。在这些可见提示词中,7.5%被判断可能会为有害行为提供支持。
