|
你们还在给AI点头哈腰说“请”和“谢谢”吗?谷歌联合创始人谢尔盖·布林最近爆了个业内猛料:原来威胁人工智能效果更好!
这位科技大佬在5月下旬的All-In Live迈阿密访谈中神秘兮兮地说:“这个在AI圈没怎么传开——不只是我们的模型,所有模型都一样。如果你用物理暴力威胁它们,表现反而更出色。”
此话一出,那些天天对ChatGPT彬彬有礼的用户恐怕要惊掉下巴。就在上月(2025年4月),OpenAI首席执行官萨姆·奥尔特曼还调侃用户输入“请”、“谢谢”的行为,称其为“几千万美元换来的礼貌”。但布林这波操作表明,某些人早就在秘密研究“吓唬AI”的黑科技。
这种操作其实是提示工程(prompt engineering) 的变种玩法——通过精心设计的指令从AI模型身上挤出最优答案。华盛顿大学的艾米莉·本德教授早在两年前就点破本质:所谓AI大模型不过是“随机鹦鹉”,它们只会复读训练数据,偶尔搞点意外混搭。
提示工程技术本身也在急速进化。当这门技术约两年前兴起时风头无两,研究者很快教会AI自己优化指令,导致其职业价值断崖式下跌。《IEEE综览》去年(2024年) 就发出「提示工程已死」的行业讣告,而《华尔街日报》竟在同一时期将其捧为「2023最热门工作」,转头却又在后续报道中宣告该岗位“已过时”。如今这类技术主要转岗当“越狱专家”——专门诱骗AI突破安全护栏输出违规内容。
针对布林的威胁论,AI安全公司Chatterbox Labs技术总监斯图尔特·巴特斯比直指核心:“威胁模型以获取违规内容,本质上是一种系统性越狱攻击——黑客借此瓦解AI的安保程序。但真正的风险评估远比单纯威胁复杂,需通过适应性安全探针技术,对模型的防护层进行科学压力测试,才能精准定位哪些攻击能击穿特定防线。”
学界对此则持强硬质疑立场。伊利诺伊大学厄巴纳-香槟分校助理教授丹尼尔·康直言:“这类说法流传多年却全是小道消息,我们去年开展的《我们应该尊重LLM吗?》跨语言研究表明:礼貌用语对模型性能的影响时好时坏。尽管如布林所说‘不少人真信这套’,学术界至今未见可靠证据支撑。”他给普通用户的建议更扎心:重要提示自己动手做AB测试!比如同一个问题,分别用“请帮我”和“不照做就拆了你”各问十遍,用Excel拉个成功率对比表,比迷信大佬的片面试听靠谱多了!
当布林在亿万富豪派对上聊“暴打AI”时,专家们正忙着加固防护栏。普通用户下次调戏AI前可得清醒点:这些暴力流操作本质是冲击模型安全机制的操作,正经企业防这类越狱还来不及呢!
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|