快捷搜索:  美女    名称  交警  美食

我们急需完善的数据隐私政策

199IT数据中心微信账户:i199IT

译者: vikeyshuy

大数据可以同时保持匿名又能为人所用吗?

好色客俱乐部是纽约一家男士娱乐场所,俱乐部的常客们不可能知道他们已卷入“大数据”时代有关匿名的一场争论,不过数据科学家安东尼?托卡挖掘了乘坐出租车的数据库细节,此举纯属娱乐,他想看看能发现点什么,显而易见,尽管相关数据没有包括客户的直接身份,但是有趣的是,从俱乐部出发,一路上在私人住址仍然有一些聚集的下客点。推动将选民登记记录引入这些混合的数据,以识别哪些人住在以上地址 (托卡先生没有这样做),最终您可能会造成一些不幸的婚姻。

通常,数据记录的匿名化意味着移除个人身份信息。很明显,姓名要移除,不过还有电话号码、地址和各种如出生日期之类的私密详细信息。之后,该记录被视为安全的,可以向研究人员乃至公众发布,且他们可随意使用。很多人向例如医学试验项目透露个人信息,都是基于对以上情况会发生的了解之上的。

但是比较数据库的能力可能会奚落该保护措施。基因组学项目的参与者们,被承诺换取他们的DNA时会匿名,但是通过简单地与选举名单和其他公开信息比较他们就被识别出了身份。用同样的伎俩,马萨诸塞州州长的健康记录从一个州政府职员就诊数据库里采集了出来,同样,这个数据库据推测也是匿名的。记者通过筛选网页搜索的公共数据库,能够将他们关联以查出一个(实在令人尴尬)一直在悠闲地寻找单身男人的女人等等。

每个这些可以做头条的故事都制造了期待更多控制手段的需求。但这反过来又给了开放数据这个观念一击,即人们在现代世界里每次做任何事情呼出的或多或少的电子“数据尾气”实际上是有用的东西,如果将它免费用于分析,可能会使世界变得更美好。

是蛋糕,就吃吧

以现代汽车为例,汽车在其电脑里记录很多关于该车辆如何、何时何地被使用的信息。牛津大学网络学院的维克托?迈尔-舍恩伯格说:“比较诸多车辆的记录信息可以为比如发现危险路段提供坚实的依据。同样,开放健康档案,尤其是在像英国这样的国家,英国有国民医疗保健制度,将健康档案数据与其他个人资料相互取长补短,可能有助于揭示如阿尔茨海默氏症等疾病的多方面的原因。

这确实是一个困境。人们既想要完美的隐私又想要公开的所有好处。但不能两者兼得。剥离一些细节,来作为保证匿名的惟一手段,在一个充斥着数据尾气的世界行不通。糟糕的匿名数据只是问题的一部分。可能更糟糕的是,没有匿名化标准。例如,美国的每个州对于适当标准的构成都有其自己的惯例。

更糟的是,制定一个全面的标准可能是不可能的。华盛顿特区乔治敦大学的保罗·欧姆认为,部分原因是新数据的可用性不断改变着规则。他说:“如果我们能选择一个今天现行的行业标准,这个标准很快就会过时。”一些数据,例如有关身体状况的数据,相比其他数据更敏感。一些数据集提供非常精确的时间或地点,其他数据集只是提供一个年份和一个邮政编码。每个数据集都呈现了自身的危险和需求。

幸运的是,有一些简单的办法。部分原因是多亏了头条新闻,现在许多人认为公开发布匿名数据是一个糟糕的举动。取而代之的是数据可以零散地公开,或者在内部保存通过问答机制供研究人员访问。或者仅在严格控制的情形下,可授予一些用户访问原始数据的权限。

然而,公开数据运动对所有这些方法深恶痛觉,因为这些方法限制了研究的范围。斯坦福大学(Stanford University)数据科学家蒂姆?阿尔托夫说:“如果我们让共享数据如此困难,以至于只有少数人可以访问数据,那将对科学、对能复制和推进你们工作的人来说具有深远影响。”

纯粹的法律手段可能会缓和这个问题。数据可与称之为“下游合同义务”联系在一起,该义务概述了给定数据集可用于做什么,接下来的数据接收者也要遵循同样的标准。纽约哥伦比亚大学流行病学家丹尼尔?巴斯-琼斯建议,一个苛刻的想法是:即便是尝试再识别,也将其规定为非法。

尽管一定程度的匿名化仍将被任何解决困境办法所采用,数学可能会改变整个方程等式。能将平衡转向好的方面的一种方法是同态加密,即对一个加密的数据集查询本身就是加密的。任何查询的结果与对未加密数据库使用标准查询所获得的结果是一样的。但是提问者从不看数据集。或者有安全多方计算,其中一个数据库在几个存储库之中分配。因此查询也被分配,这样人们不需要访问整个数据库。

理论上,这些方法能其绝对的保护作用。但把他们应用在混乱、真实的数据方面显示很棘手。另一套称为差分隐私的技术似乎更先进。背后的思路是无论一个给定个体的数据是否在数据库里,确保从中获取的结果看起来是相同的。工作方法是往数据里增加一点噪音数据,但是与此同时又不会模糊统计结果。

热血警探

美国人口普查局已在过去使用差分隐私技术来收集通勤者的数据。谷歌有一个项目是用一个浏览器插件收集大量的用户软件数据,同时保证匿名,目前其正采用差分隐私技术作为该项目的一部分。辛西娅·德沃克是微软研究院差分隐私技术的先驱表示:一个更引人注目的试验场是那些因为隐私问题保持着锁定的数据集,例如一些涉及汽车数据或基因组的数据集。

现在,差分隐私因其数学支撑很难,使得其要实现广泛应很棘手。哈佛大学计算和社会研究中心的萨利? 瓦德汉表示,这需要改变。他说:“现在轮到我们来采取行动了,我们不只是要写论文,而是要制造通用工具。”

公共教育也是必要的。数据科学很可能把我们引向更安全的道路,带给我们长期寻找的解决方法,但人们必须理解其中的利弊。英国国家统计局(ONS)的研究人员所发布的数据是几十亿英镑规模公共开支的依据,七月,他们开始征求公众对不同类型的数据披露的感受度。国家统计局的简 奈勒说:匿名总有一些风险。但“不充分利用数据也有风险。”

经济学人

摘自:http://www.economist.com/news/science-and-technology/21660966-can-big-databases-be-kept-both-anonymous-and-useful-well-see-you-anon

您可能还会对下面的文章感兴趣: