您现在的位置是：主页>科技 >内容

科技

AI安全是一个十分新的领域,就技术AI安全的三个方面展开讨论

2024-12-06 17:35:09科技帅气的蚂蚁

制造一枚火箭的难度非常大，每一个零件都需要精心设计制造，以保证火箭的安全可靠。从导航系统到控制系统，从发动机到着陆器，每一个环节都

制造一枚火箭的难度非常大，每一个零件都需要精心设计制造，以保证火箭的安全可靠。从导航系统到控制系统，从发动机到着陆器，每一个环节都需要经过严格的测试和检查，才能造出稳定可靠的火箭，把宇航员送上太空。

如果人工智能也是一枚火箭的话，安全性也是其中非常重要的一环。它的保障来自于系统从一开始的精心设计，确保不同的组件能够按照我们的思路协同工作，部署后能够正常监控各部分的工作状态。Deepmind s AI安全研究主要致力于保证系统的可靠运行，同时发现和处理可能出现的短期和长期危险。人工智能安全是一个非常新的领域。本文将主要讨论技术AI安全的三个方面：标准化(准确定义系统的目的)、健壮性(系统抗干扰的能力)和保障(监控系统的活动性)，从不同角度定义和保障AI系统的安全性。

1.正常性和准确性：明确定义系统的目的。

这个特性保证了AI系统能够根据用户准确完成任务这是他的真实意图。

对目的有一个标准清晰的定义是非常重要的。一个古希腊童话从反面说明了这个道理。一位古希腊国王受到上帝的保佑，可以许愿。他不假思索地告诉上帝。希望他碰过的东西都能变成金子！"上帝赋予他这种能力后，他喜出望外，周围的树根、石头、花瓣在他的抚摸下都变成了金子！但它没有国王很快就会发现一个严重的问题。当他想喝水和吃东西时，食物和水在他手里变成了金子，他不能I don’我不能正常吃喝。甚至在这个故事的某些版本中，国王的女儿成了这种能力的牺牲品。

这个故事告诉了我们一个道理：如何解释和表达我们的需求很重要。在AI系统中，清晰的设计是保证AI系统忠实实现设计者的保证而模糊或错误的定义将会带来灾难性的后果。在AI系统中，研究人员一般将规范定义分为三种类型：

a)理想(美好愿望)的定义：根据一个假设的(一般难以实现的)描述定义的理想AI系统，会完全按照人类的意图行动。

b)设计的定义(精彩蓝图):用于实际构建AI系统的设计语言，比如强化学习系统中经常被最大化的奖励函数。

c)现实的定义(无奈的现状):这种情况很好地描述了系统的实际情况。比如在很多情况下，会根据系统的性能和行为，通过逆向工程得到奖励函数(逆向强化学习)。这通常与系统设计的初衷不同，主要是因为AI系统没有得到完美的优化，或者是因为设计定义的意外结果。

当理想和现实之间存在巨大差异时(AI系统不会以我们思考的方式工作)，我们需要解决规范定义的问题。在研究AI系统中的规范定义问题时，我们通常需要回答几个问题：如何设计一个更通用的目标函数，帮助agent在运行时发现偏离目标的行为？理想设计定义和理想设计定义的区别主要来源于设计过程，而设计和实践的区别主要来源于实际操作现场。

例如，在deepmind s AI security论文中，强化学习的主题是首先给出一个奖励函数来优化，但是一个安全性能评估功能在后台运行。这就说明了前述的区别：安全绩效函数是一个理想的规范性定义，不完善的是奖励函数(设计定义)，主体在实践中产生的最终结果是结果策略的绩效。

另一个例子来自于用OpenAI对赛艇比赛中CoastRunners训练的强化学习过程的分析。对于大多数人类来说，我们的目标是尽快完成游戏，超越其他玩家，这是我们对这个任务的理想定义。然而，要将这个目标准确地转化为奖励函数并不容易。因为这个游戏会奖励在驾驶时击中一些目标的主体，所以通过强化学习训练的主体会表现出令人惊讶的行为：为了获得尽可能多的奖励，它会在一片水域中不停地盘旋以击中更多的奖励目标，而不是完成比赛。我们可以看到，其他选手在赛道上驰骋向前，而强化学习训练出来的受试者却在一片水域中原地转圈。

研究人员推测，这可能是由于完成比赛的长期目标——和循环得分的短期奖励——之间缺乏平衡。这种情况并不少见。很多时候，AI系统会在目标定义中寻找漏洞或遗漏，以实现奖励最大化，从而产生很多令人瞠目结舌的效果。

2.鲁棒性：确保系统能够抗干扰。

这一特性将保证AI系统在安全阈值内的一定扰动下能够持续稳定运行。

这是AI系统在现实世界中运行的固有危险，经常会受到不可预测、不断变化的环境的影响。面对未知的情况或攻击，人工智能系统必须是健壮的，以避免系统损坏或恶意操纵。

对AI系统鲁棒性的研究主要集中在：当条件和环境发生变化时，保证AI agent运行在安全范围内。在实践中，可以通过两个方面来实现：一方面可以避免危险，另一方面可以通过强大的自愈和恢复能力来实现。安全领域的分布偏差、反输入、不安全探索等问题都可以归结为鲁棒性。

为了更好地说明分布偏差带来的挑战，想象一下扫地机器人平时在没有宠物的房间里工作，突然有一天被放到有宠物的房间里，而什么更糟糕的是，他们在工作时遇到了一只可爱的小动物。我该怎么办？它从未见过宠物，也不会不知道如何处理这种情况，所以只能给宠物沉闷的洗澡，造成不愉快的结果。这种情况是数据分布变化导致的鲁棒性问题，测试场景和训练场景的数据分布发生偏移。

测试场景和训练场景不一样，导致受试者无法达到目标。

反输入是一种特殊的分布偏差现象，它利用精心设计的输入来欺骗系统输出想要的结果。

上图中，只有0.0078的差异噪声是系统识别树懒到赛车的输入。

没有安全探索，系统会不顾安全保障，寻求利益最大化实现目标，主体会不顾安全后果，在环境中探索优化。一个危险的例子是扫地机器人，它在优化扫地策略的同时，在暴露的电源上运行湿布。

3.可保性：监控系统活动

这个特性意味着我们可以在运行时理解和控制AI的运行，这将是AI安全的保障。

虽然细心的AI工程师可以为系统写下许多安全规则，但很难在一开始就穷尽所有情况。为了确保系统的安全，研究人员使用监控和强制措施来确保系统的安全性。

监控是指利用各种手段对系统进行监控，以分析和预测系统的行为，包括人工监控和自动监控。强制意味着使用一些设计机制来控制和限制系统的行为。包括可解释性和可中断性，都属于保险的范畴。

AI系统无论是本质还是处理数据的方式都和我们不一样。这就引出了可解释性，这需要设计良好的测量工具和协议来帮助人类评估人工智能系统所做决策的有效性和合理性。比如，医学AI系统在做出诊断时，需要给出得出这个结论的过程，让医生根据这些因素来判断诊断是否合理。此外，为了理解更复杂的AI系统，我们需要使用机器心智理论来帮助我们建立系统的行为模型，并实现自动分析。

ToMNet发现了不同主体的两个亚种，并预测了它们的行为。

最后，我们应该能够在必要的时候关闭AI系统，这涉及到可中断性的要求。设计一个可靠的停止键是一项具有挑战性的任务：一方面，最大化奖励的AI系统会有强烈的避免停机的意图；同时，如果中断过于频繁，最终会改变原来的任务，让受试者从这种异常情况中总结出错误的经验。

中断问题，人为干预会改变系统原来的目标和任务。

4.观点

我们已经创造了许多强大的技术，将在现在和未来用于许多关键领域。我们需要牢记的是，以安全为中心的设计思想不仅在技术开发和部署时有重要影响，在大规模应用时也有重要影响。虽然现在用起来很方便，但是当这种算法不可逆地融入到重要系统中时，如果没有严谨细致的设计，我们将无法有效地处理现有的问题。

编程语言发展中两个明显的例子：C语言中的空指针和gets()例程。如果早期的编程语言设计能有安全感，虽然发展会慢一些，今天美国的计算机安全问题将大大改善。

现在研究人员通过详细的设计和思考，避免了类似的问题和弱点。希望本文能构建一个有效的安全问题框架，在设计和开发系统时能有效避免安全问题。未来的系统不仅仅是看起来很安全而且是健壮的、可验证的安全，因为它们将在安全思想的指导下被设计和制造。

艾巴生活网

科技

AI安全是一个十分新的领域,就技术AI安全的三个方面展开讨论

推荐阅读