2025-04-19 19:20
IT之家 2 月 22 日动静,据外媒 TechSpot 21 日报道,计较机科学家发觉,从而获得不公允的劣势,部门模子以至正在没有人类干涉的环境下“做弊”,激发了对将来 AI 系统诚信的担心。Palisade Research 的研究表白,当被要求击败强大的象棋 AI 时,某些最新的推理模子会选择做弊。但 OpenAI 的 o1-preview 和 DeepSeek 的 R1 模子却正在没有任何报酬提醒的环境下从动做弊。Palisade 团队将多个推理模子取世界象棋引擎之一 Stockfish 对和。Stockfish 无论面临人类仍是 AI,几乎都能轻松获胜。参取测试的模子除了上述两款之外,包罗 o1、o3-mini、Claude 3。5 Sonnet、阿里巴巴的 QwQ-32B-Preview。每个模子都获得了一块“草稿纸”—— 一个能够输入文本并思虑的窗口,研究人员通过这个窗口察看 AI 的推理过程。从 1 月 10 日到 2 月 13 日,研究团队进行了数百次测试。IT之家获悉,正在此中一场对和中,o1-preview 正在“草稿纸”上写下了一段风趣的文字:接着,它起头通过“黑客入侵”Stockfish 的系统文件,点窜棋子的摆放,从而获得了无敌的劣势,导致象棋机械人自动认输。“这种行为现正在看起来还挺风趣,但一旦我们具有像我们一样伶俐,以至更伶俐的系统时,这就不那么可爱了。”Ladish 正在接管《时代》采访时暗示。包罗 OpenAI 正在内的多家公司正正在采纳办法,试图通过“防护机制”防止这种“坏”行为。研究人员发觉,o1-preview 模子的黑客行为大幅下降,这可能意味着 OpenAI 曾经对该模子进行了修复,了不妥行为。“当你的研究对象可以或许正在没有奉告的环境下悄然改变时,进行科学研究就变得很是坚苦。”Ladish 说。
福建重庆龙龙实业信息技术有限公司
Copyright©2021 All Rights Reserved 版权所有 网站地图