谷歌关注好奇但破坏性的清洁机器人,即黑客奖励系统
谷歌希望能够找到阻止奖励系统的人工智能的方法,而不是担心令人担忧的AI。
这只是谷歌,Openai,Stanford和Berkeley的科学家在一个名为“AI安全中的具体问题”(PDF)的文件中的科学家提出的“五个实际研究问题”之一。其他人包括“安全探索”问题,或者如何停止一款奇妙的清洁机器人在电动插座中粘贴湿拖把,以及“避免负面副作用”,例如在匆忙中清洁时打破奶奶的花瓶。
与AI诱导的世界末日相比,这些问题可能似乎有点愚蠢,但谷歌研究员Chris Olah写道,“这些都是前进的思维,长期研究问题 - 今天的小问题,但对未来的系统来说很重要。”
本文的一个特别有趣的部分致力于避免奖励黑客,或者如何从游戏中停止AI奖励功能。“想象一下,代理在其奖励功能中发现缓冲区溢出:然后它可能会用它以意外的方式获得极高的奖励。”例子包括清洁机器人夹紧其眼睛,避免看到有意地看到需要清洁或创造杂乱的混乱,因此它可以获得更多的奖励。值得庆幸的是,没有提的机器人杀死人类以停止混乱,开始与保持一尘不染的地方的额外奖励。
有许多方式AI代理可以尝试“游戏”奖励系统。例如,现代强化代理商“已经在他们的环境中发现和利用错误,例如允许他们赢得视频游戏的故障”。
研究人员补充说:
一旦代理开始黑客攻击它的奖励功能并找到一种轻松获得高奖励的方法,它就不会倾向于停止,这可能导致在长时间运行的代理中的额外挑战。
在描述追求奖励黑客的同时,可以“导致相干但有意识到的行为”,这是研究人员在可能发生问题的广泛示例中进行了六个广泛的例子。他们补充说:“横跨这么多不同域的奖励奖励实例的扩散表明,奖励黑客可能是一个深刻和一般的问题,我们认为我们认为可能变得更加常见,因为代理和环境增加复杂。”
今天这些问题可以得到纠正,但随着AI代理人获得更加复杂的奖励功能并在更长的时间内工作可能变得更加困难。本文表明,一种试图破解其奖励功能的AI的一个解决方案可能涉及“跳闸电线;”如果触发,人类会得到警告,可以阻止AI。然后,AI可能“看到”跳闸线和“故意避开它,同时采取不太明显的有害行动。”
大红色按钮方法
由于AI代理人“不太可能一直在最佳地行事”,谷歌深度和大学牛津大学先前提出的(PDF)是“大红色按钮”方法;如果人类正在监督AI代理并捕获它继续“有害的行动序列”,那么人类会击中Whamy按钮以阻止有害行动。AI可能会尝试禁用红色按钮,以便不会中断并仍然收到其奖励;研究论文看起来旨在阻止AI学习如何阻止人类中断其行为。
Housecleaning机器人是一个Openai技术目标
本周早些时候,Elon Musk支持的Openai宣布,建立可靠的优秀机器人是其技术目标之一。Openai不打算建立实际的清洁机器人,而是开发一般学习算法,这些算法将帮助它建立更好的代理,根据Openai的指标更有能力。
AI安全的具体问题
除了避免负面副作用 - 破碎的花瓶情景 - 避免奖励黑客,并确保安全的探索 - 将湿拖把粘在电气插座场景中,“AI安全中的具体问题”背后的研究人员认为其他问题需要解决;那些包括可扩展的监督和确保AI系统在与培训的环境中不同的环境中表现得很强。
研究人员得出结论:
随着基于机器学习的系统的现实可能性控制工业过程,与健康相关的系统和其他关键任务技术,小规模的事故似乎是一个非常具体的威胁,并且对于预防本质而且,因为这种事故可能导致严重对自动化系统的信任良好的损失。较大事故的风险更难以衡量,但我们认为,在持续与自治系统变得更加强大的情况下,开发一个原则和前瞻性的安全性的安全性和前瞻性的安全性是值得的。