研究表明强化学习模型容易受到成员推理攻击

人工智能1年前发布 wwz001

12 00

译者 | 李睿

审校 | 孙淑娟

随着机器学习成为人们每天都在使用的很多应用程序的一部分，人们越来越关注如何识别和解决机器学习模型的安全和隐私方面的威胁。

研究表明强化学习模型容易受到成员推理攻击

然而，不同机器学习范式面临的安全威胁各不相同，机器学习安全的某些领域仍未得到充分研究。尤其是强化学习算法的安全性近年来并未受到太多关注。

加拿大的麦吉尔大学、机器学习实验室（MILA）和滑铁卢大学的研究人员开展了一项新研究，主要侧重于深度强化学习算法的隐私威胁。研究人员提出了一个框架，用于测试强化学习模型对成员推理攻击的脆弱性。

研究结果表明，攻击者可以对深度强化学习（RL）系统进行有效攻击，并可能获得用于训练模型的敏感信息。他们的研究成果意义重大，因为强化学习技术目前正在进入工业和消费者应用领域。

成员推理攻击

研究表明强化学习模型容易受到成员推理攻击

成员推理攻击可以观察目标机器学习模型的行为，并预测用于训练它的示例。

每个机器学习模型都在一组示例上进行训练。在某些情况下，训练示例包括敏感信息，例如健康或财务数据或其他个人身份信息。

成员推理攻击是一系列试图强制机器学习模型泄露其训练集数据的技术。虽然对抗性示例（针对机器学习的更广为人知的攻击类型）专注于改变机器学习模型的行为，并被视为安全威胁，但成员推理攻击侧重于从模型中提取信息，并且更多的是隐私威胁。

成员推理攻击已经在有监督的机器学习算法中进行了深入研究，其中模型是在标记示例上进行训练的。

与监督学习不同的是，深度强化学习系统不使用标记示例。强化学习(RL)代理从它与环境的交互中获得奖励或惩罚。它通过这些互动和强化信号逐渐学习和发展自己的行为。

该论文的作者在书面评论说，“强化学习中的奖励不一定代表标签；因此，它们不能充当其他学习范式中成员推理攻击设计中经常使用的预测标签。”

研究人员在他们的论文中写道，“目前还没有关于直接用于训练深度强化学习代理的数据的潜在成员泄漏的研究。”

而缺乏这种研究的部分原因是强化学习在现实世界中的应用有限。

研究论文的作者说，“尽管深度强化学习领域取得了重大进展，例如Alpha Go、Alpha Fold和GT Sophy，但深度强化学习模型仍未在工业规模上得到广泛采用。另一方面，数据隐私是一个应用非常广泛的研究领域，深度强化学习模型在实际工业应用中的缺乏极大地延迟了这一基础和重要研究领域的研究，导致对强化学习系统的攻击的研究不足。”

随着在现实世界场景中工业规模应用强化学习算法的需求不断增长，从对抗性和算法的角度对解决强化学习算法隐私方面的框架的关注和严格要求变得越来越明显和相关。

深度强化学习中成员推断的挑战

研究表明强化学习模型容易受到成员推理攻击

研究论文的作者说，“我们在开发第一代保护隐私的深度强化学习算法方面所做出的努力，使我们意识到从隐私的角度来看，传统机器学习算法和强化学习算法之间存在根本的结构差异。”

研究人员发现，更关键的是，考虑到潜在的隐私后果，深度强化学习与其他学习范式之间的根本差异在为实际应用部署深度强化学习模型方面提出了严峻挑战。

他们说，“基于这一认识，对我们来说最大的问题是：深度强化学习算法对隐私攻击（如成员推断攻击）的脆弱性有多大？现有的成员推理攻击攻击模型是专门为其他学习范式设计的，因此深度强化学习算法对这类攻击的脆弱程度在很大程度上是未知的。鉴于在世界范围内部署对隐私的严重影响，这种对未知事物的好奇心以及提高研究和工业界意识的必要性是这项研究的主要动机。”

在训练过程中，强化学习模型经历了多个阶段，每个阶段都由动作和状态的轨迹或序列组成。因此，一个成功的用于强化学习的成员推理攻击算法必须学习用于训练模型的数据点和轨迹。一方面，这使得针对强化学习系统设计成员推理算法变得更加困难；而另一方面，也使得难以评估强化学习模型对此类攻击的鲁棒性。

作者说，“与其他类型的机器学习相比，在强化学习中成员推理攻击(MIA)很困难，因为在训练过程中使用的数据点具有顺序和时间相关的性质。训练和预测数据点之间的多对多关系从根本上不同于其他学习范式。”

强化学习和其他机器学习范式之间的根本区别，使得在设计和评估用于深度强化学习的成员推理攻击时以新的方式思考至关重要。

设计针对强化学习系统的成员推理攻击

在他们的研究中，研究人员专注于非策略强化学习算法，其中数据收集和模型训练过程是分开的。强化学习使用“重放缓冲区”来解相关输入轨迹，并使强化学习代理可以从同一组数据中探索许多不同的轨迹。

非策略强化学习对于许多实际应用程序尤其重要，在这些应用程序中，训练数据预先存在并提供给正在训练强化学习模型的机器学习团队。非策略强化学习对于创建成员推理攻击模型也至关重要。

研究表明强化学习模型容易受到成员推理攻击

非策略强化学习使用“重放缓冲区”在模型训练期间重用先前收集的数据

作者说，“探索和开发阶段在真正的非策略强化学习模型中是分离的。因此，目标策略不会影响训练轨迹。这种设置特别适合在黑盒环境中设计成员推理攻击框架时，因为攻击者既不知道目标模型的内部结构，也不知道用于收集训练轨迹的探索策略。”

在黑盒成员推理攻击中，攻击者只能观察训练好的强化学习模型的行为。在这种特殊情况下，攻击者假设目标模型已经从一组私有数据生成的轨迹上进行了训练，这就是非策略强化学习的工作原理。

研究表明强化学习模型容易受到成员推理攻击

在研究中，研究人员选择了“批量约束深度Q学习”（BCQ），这是一种先进的非策略强化学习算法，在控制任务中表现出卓越的性能。然而他们表示，他们的成员推理攻击技术可以扩展到其他非策略强化学习模型。

攻击者进行成员推理攻击的一种方法是开发“影子模型”。这是一个分类器机器学习模型，它已经在来自与目标模型的训练数据和其他地方的相同分布的数据混合上进行了训练。在训练之后，影子模型可以区分属于目标机器学习模型训练集的数据点和模型以前未见过的新数据。由于目标模型训练的顺序性，为强化学习代理创建影子模型很棘手。研究人员通过几个步骤实现了这一点。

首先，他们为强化学习模型训练器提供一组新的非私有数据轨迹，并观察目标模型生成的轨迹。然后，攻击训练器使用训练和输出轨迹来训练机器学习分类器，以检测在目标强化学习模型训练中使用的输入轨迹。最后，为分类器提供了新的轨迹，将其分类为训练成员或新的数据示例。

研究表明强化学习模型容易受到成员推理攻击

针对强化学习模型训练成员推理攻击的影子模型