博弈论——试图预测竞争对手的行为如何影响其他玩家的选择——可以帮助研究人员找到共享生物医学数据的最佳方式,并且可以保护共享数据人群身份匿名性免遭黑客攻击。

现代生物医学研究,例如全国COVID – 19队列合作(National COVID Cohort Collaborative)和人类基因组计划,需要大量的个人数据。

在不侵犯任何人隐私情况下向公众提供详细的数据集是此类项目的关键挑战。

为此,许多收集和传播基因组数据的程序将个人信息隐藏在可用于重新识别受试者的数据中。然而,仍有可能使用残留数据来追踪来自其他可能与生物医学数据相关的来源的个人信息,以揭示测试对象的身份。

例如,将一个人的 DNA 数据与 Ancestry.com 等公共家谱数据库进行比较,有时会得到这个人的姓氏,该姓氏可与人口统计数据一起使用,通过 PeopleFinders 等在线公共搜索引擎来追踪这个人的身份。

社区环境中遗传隐私和身份中心的一个研究小组,开发了帮助评估和减轻生物医学数据交换中的数据保护风险。

研究小组的方法可用于保护不同类型的数据,例如人口统计数据或基因组序列,免受匿名攻击。

研究小组的方法可用于保护不同类型的数据,例如人口统计数据或基因组序列,免受匿名攻击(盖蒂图像)

领导者和追随者模型

这个研究小组的最新模型使用领导者和追随者游戏,来模拟数据主体和潜在有害数据用户之间的交互。

在这个模型中,数据主体首先移动,决定共享哪些数据,然后对手继续移动,并根据共享数据决定是否进行攻击。

使用博弈论来评估数据共享方法涉及评估每个策略及其对共享数据的隐私和价值的影响,策略包括在保留或保留数据片段之间进行权衡,以保护身份并使数据尽可能有用。

最佳数据主体策略允许以最少的风险共享最多的数据。然而,寻找最优策略具有挑战性,因为基因组测序数据有很多维度,这使得详尽研究所有可能的数据共享策略变得不切实际。

为了克服这个问题,研究小组开发了一些算法,专注于最有可能包含最佳策略的一小部分策略,通过实现与公众共享数据和数据主体隐私的好处,这个方法已证明其有效性。

这为什么很重要?

最坏的情况是攻击者拥有无限的能力并且不关心经济损失,这通常是极不可能发生的。但是,数据管理员有时会关注这些场景,这可能导致他们高估重新识别的风险,并且出于安全原因共享的数据远远少于他们所能共享的数据。

目标是创建一种系统的风险评估方法,同时考虑共享数据的价值,基于游戏的方法不仅提供了对重新识别风险的更现实的评估,而且还找到了可以在效用和隐私之间取得适当平衡的数据共享策略。

数据管理者使用加密技术来保护生物医学数据 (盖蒂图像)

正在进行哪些其他研究?

数据管理者使用加密技术来保护生物医学数据,其他技术包括向数据添加噪声和隐藏部分数据。

这项工作建立在之前的一项研究基础之上,该研究率先使用博弈论来评估健康数据中重新识别的风险,并防止对基因组数据的身份攻击。

当前的研究是第一个研究攻击者可以访问多个资源并以增量方式组合它们的攻击。

接下来会怎样?

这个研究小组目前正在扩展其基于游戏的方法来模拟玩家的不确定性和理性,与此同时,该小组还致力于解决由多个数据提供者和多种类型的数据接收者组成的环境问题。

来源 : 电子网站