大佬爆料AI隐藏属性：不威胁没惊喜！谷歌布林称暴力恐吓能激活模型潜能

麻薯滑芝士 · 发表于 2025-5-31 09:27:32

你们还在给AI点头哈腰说“请”和“谢谢”吗？谷歌联合创始人谢尔盖·布林最近爆了个业内猛料：原来威胁人工智能效果更好！

这位科技大佬在5月下旬的All-In Live迈阿密访谈中神秘兮兮地说：“这个在AI圈没怎么传开——不只是我们的模型，所有模型都一样。如果你用物理暴力威胁它们，表现反而更出色。”

此话一出，那些天天对ChatGPT彬彬有礼的用户恐怕要惊掉下巴。就在上月（2025年4月），OpenAI首席执行官萨姆·奥尔特曼还调侃用户输入“请”、“谢谢”的行为，称其为“几千万美元换来的礼貌”。但布林这波操作表明，某些人早就在秘密研究“吓唬AI”的黑科技。

这种操作其实是提示工程（prompt engineering）的变种玩法——通过精心设计的指令从AI模型身上挤出最优答案。华盛顿大学的艾米莉·本德教授早在两年前就点破本质：所谓AI大模型不过是“随机鹦鹉”，它们只会复读训练数据，偶尔搞点意外混搭。

提示工程技术本身也在急速进化。当这门技术约两年前兴起时风头无两，研究者很快教会AI自己优化指令，导致其职业价值断崖式下跌。《IEEE综览》去年（2024年）就发出「提示工程已死」的行业讣告，而《华尔街日报》竟在同一时期将其捧为「2023最热门工作」，转头却又在后续报道中宣告该岗位“已过时”。如今这类技术主要转岗当“越狱专家”——专门诱骗AI突破安全护栏输出违规内容。

针对布林的威胁论，AI安全公司Chatterbox Labs技术总监斯图尔特·巴特斯比直指核心：“威胁模型以获取违规内容，本质上是一种系统性越狱攻击——黑客借此瓦解AI的安保程序。但真正的风险评估远比单纯威胁复杂，需通过适应性安全探针技术，对模型的防护层进行科学压力测试，才能精准定位哪些攻击能击穿特定防线。”

学界对此则持强硬质疑立场。伊利诺伊大学厄巴纳-香槟分校助理教授丹尼尔·康直言：“这类说法流传多年却全是小道消息，我们去年开展的《我们应该尊重LLM吗？》跨语言研究表明：礼貌用语对模型性能的影响时好时坏。尽管如布林所说‘不少人真信这套’，学术界至今未见可靠证据支撑。”他给普通用户的建议更扎心：重要提示自己动手做AB测试！比如同一个问题，分别用“请帮我”和“不照做就拆了你”各问十遍，用Excel拉个成功率对比表，比迷信大佬的片面试听靠谱多了！

当布林在亿万富豪派对上聊“暴打AI”时，专家们正忙着加固防护栏。普通用户下次调戏AI前可得清醒点：这些暴力流操作本质是冲击模型安全机制的操作，正经企业防这类越狱还来不及呢！

liqh · 发表于 2025-5-31 09:50:25

AI隐藏属性，决不能让他威胁人类安全

账号		自动登录	找回密码
密码			立即注册

[业界] 大佬爆料AI隐藏属性：不威胁没惊喜！谷歌布林称暴力恐吓能激活模型潜能

本帖子中包含更多资源

相关帖子