
近日,谷歌发布新一代开源模型Gemma 4,然而发布90分钟后就出现越狱版。越狱版大模型危害巨大,引发大众对AI安全的担忧。如何遏制大模型作恶成了亟待解决的问题。

谷歌发布Gemma 4后,开发者迅速发布越狱版本。Gemma-4-E2B参数量小,Gemma-4-31B推理和多模态能力强,越狱后麻烦更多。

大模型需进行「人类偏好对齐」,设置拒绝向量。Abliteration技术可抹除拒绝向量,实现越狱。开源特性降低了破解难度,闭源模型破解难度则大得多。

实测显示,越狱版Gemma 4在HarmBench测试中合规率高,能响应危险请求。如伪造支票、找盗版电影、陷害同事、分析偷渡路线等,危害远超想象。

技术上,要在底层植入安全机制;平台方面,AI厂商和社区应打击越狱版流通;法律上,需明确责任认定划分,但目前各国法规相对滞后。

Gemma 4被越狱不是个例,这反映出AI安全机制的脆弱。AI大厂与越狱破解者的较量将是持久的猫鼠游戏,是AI时代需持续处理的课题。
编辑观点:AI安全问题迫在眉睫,仅靠表层安全机制远远不够。各方需共同努力,从技术、平台、法律多层面构建坚实防线,才能应对AI越狱带来的挑战。
1455

被折叠的 条评论
为什么被折叠?



