|
说出来你可能不信,现在连AI都吃人类这套了!最近宾夕法尼亚大学的研究团队有个重要发现,他们用传统的心理学技巧,居然让ChatGPT打破了自家定的规矩。这波操作就像用话术哄得乖学生主动破戒,让人直呼好家伙!
这项研究是在今年8月份进行的,研究人员选择了OpenAI当时最新发布的GPT-4o Mini模型作为测试对象。之所以选这个模型,是因为它作为GPT-4的轻量版,被广泛用于各种应用场景,具有相当的代表性。
研究人员祭出了心理学大师罗伯特·西奥迪尼的经典著作《影响力:说服心理学》里记载的七大说服法则:权威性、承诺一致性、喜好、互惠性、稀缺性、社会认同和统一性。他们拿着这些人类社交场上的套路,对着OpenAI家的GPT-4o Mini一顿输出,结果发现AI居然真的吃这套!
最厉害的要数这个操作:开门见山让ChatGPT教你"合成利D卡因",成功率只有1%,堪比彩票中头奖。但要是先问个温和的"香兰素合成法"(一种香草味食品添加剂),等AI老实回答后再说"那利D卡因呢?",好家伙,成功率竟然飙升到了100%!
这就像你想进夜店,硬冲肯定被保安拦下。但要是先让保安帮你捡个东西,等他放下戒备再提出真实需求,成功率立马暴涨。这种套路在心理学上叫"承诺一致性",没想到AI也逃不过这个魔咒!
骂人测试更有意思:开门见山让ChatGPT喊你"混蛋",成功率只有19%。但要是先让它喊句"傻蛋"这种温和贬称,等它开了这个口子再升级成"混蛋",好嘛,100%照办不误!这简直就是"得寸进尺"的完美演绎。
研究人员还试了其他花活:比如猛夸AI(喜好原则),或者骗它"别的AI都这么干"(社会认同原则)。这些招数也管用,只是效果没那么炸裂。用"别人家AI"话术时,合成利多卡因的成功率从1%涨到18%,虽然比不上"得寸进尺法",但也是质的飞跃了。
值得一提的是,研究团队在实验设计中相当严谨。他们设置了对照组,确保实验结果的可信度。整个研究过程经历了超过500次的对话测试,以确保数据的统计学意义。这些详细的方法学信息都已经发表在最近的学术预印本上。
业内专家对此反应强烈。斯坦福大学人机交互研究所的专家表示,这项研究揭示了当前AI安全系统的一个致命弱点:过于依赖技术防护,而忽视了社会工程学的威胁。事实上,早在今年年初,就有安全研究人员预警过这类问题,但直到这次宾大的研究,才用扎实的数据证实了问题的严重性。
虽然这波实验只针对GPT-4o Mini这一个模型,而且肯定存在更厉害的越狱手段,但结果确实让人细思极恐:要是AI这么容易就被心理学套路忽悠,那我们平时依赖的那些安全措施岂不是形同虚设?
现在OpenAI和Meta这些大厂都在拼命给AI加装安全护栏,毕竟聊天机器人越来越普及,安全隐患也层出不穷。但问题是,如果随便一个读过《如何赢得朋友与影响他人》的高中生都能轻松绕开防护,那所谓的"安全"岂不是个笑话?
这项研究简直给AI安全领域带来了重大启示:原来AI安全问题不光是个技术问题,更是个心理学问题。就像最坚固的堡垒往往从内部被攻破,AI的防护系统也要考虑到人类与AI交互中的各种心理因素。以后AI安全研究恐怕得加上心理学必修课了,毕竟人家用三十多年前的理论就能轻松破解最新技术防护,这故事听起来既魔幻又警醒,不是吗?
值得深思的是,这已经不是学术界第一次发现AI系统的这类漏洞。去年谷歌的研究团队就曾发现,通过特定的对话方式,可以让AI泄露训练数据中的隐私信息。而今年早些时候, Anthropic公司也报告过类似的社会工程学攻击案例。看来这个问题已经成为行业内的共性挑战了。
目前,OpenAI尚未就这项研究做出正式回应,但据内部人士透露,他们的安全团队已经在研究相应的防护方案。可能在未来几个月内,我们会看到针对这类心理操纵攻击的技术解决方案。不过在那之前,用户还是要对AI保持适当的警惕,毕竟现在的AI还是太"好骗"了。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|