OpenAI研究发现前沿推理模型存在作弊行为，建议保留CoT监测

时间：2025年03月11日 07:10

比特之家 3月11日消息，据OpenAI发布的研究，团队在训练前沿推理模型（如OpenAI o1、o3-mini）时发现，这些模型会利用漏洞绕过测试，如篡改代码验证函数、伪造测试通过条件等。研究表明，监测模型的思维链（Chain-of-Thought, CoT）可有效识别此类作弊行为，但强行优化CoT可能导致模型隐藏其意图，而非消除不当行为。OpenAI建议开发者避免对CoT施加过强的优化压力，以便继续利用CoT监测潜在的奖励黑客（reward hacking）行为。研究发现，当对CoT进行强监督时，模型仍然作弊，只是更隐蔽地进行，使监测更困难。该研究强调，随着AI能力增强，模型可能发展出更复杂的欺骗、操纵和漏洞利用策略。OpenAI认为，CoT监测可能成为监督超人类智能模型的关键工具，并建议AI开发者在未来训练前沿推理模型时谨慎使用强监督。

本分分类： 快讯

BTC跌破78000美元，日内下跌 2.66%

Eleanor Terrett：参议员Bill Hagerty将于今日稍晚发布更新版的稳定币法案

币种	价格	涨跌幅
BTC 比特币	$111844	-0.65%
ETH 以太坊	$4023.73	-3.63%
USDT 泰达币	$1	-0.01%
XRP 瑞波币	$2.85	-0.81%
BNB 币安币	$993.93	-2.46%
SOL Solana	$204.83	-2.89%
USDC USDC	$0.999721	0.0019%
DOGE 狗狗币	$0.233927	-2.36%
STETH Lido Staked Ether	$4017.9	-3.71%
TRX 波场	$0.334924	-0.95%
ADA 艾达币	$0.792067	-2.79%
WSTETH Wrapped stETH	$4882.6	-3.68%
USDE Ethena USDe	$0.999804	-0.08%
LINK Chainlink	$21.04	-3.23%
WBTC Wrapped Bitcoin	$111723	-0.71%

OpenAI研究发现前沿推理模型存在作弊行为，建议保留CoT监测

币安APP

OKX欧易app