陈根:匿名也不能保护隐私?

原创
1044 天前
1346

文/陈根

现代网络浏览器,大多数都增加了隐私浏览模式来浏览网页,旨在保护用户隐私。显然,隐私浏览是一种非常有用且方便的工具,可用于快速浏览会话,不会在你的计算机上留下痕迹。它将保护用户的隐私免受使用你计算机的其他人的侵害,并减少你在访问网站时透露的一些有关用户自己的信息。

但事实上,隐私浏览不会让用户真正匿名,也不会保护用户免受监视和大型技术窥探。近日,一项发表于《自然·通讯》的研究指出,人们在互联网所留下的互动数据即使匿名也能被用于识别个体身份。

其中,研究人员收集了4万多手机用户的匿名信息,主要是用户在通讯应用和其他平台上与他人的互动信息。他们还开发了一种基于深度学习的模型,并用这个模型分析收集到的数据,以寻找个体的互动模式。


结果发现,该模型能基于个体的直接(1级)互动网络识别出15%的人,且能基于个体的2级互动网络(与目标个体相隔1人的个体互动)识别出52%的人。此外,20周后,研究人员还能用个体的2级互动网络识别出24%的人。

事实上,英国帝国理工学院的Yves-Alexandre de Montjoye及同事开发了一种统计方法,能够准确估算通过匿名数据集正确地重新识别个体身份的可能性。研究发现,只需要知道少数几个属性,如邮政编码、出生日期、性别和子女数量,一般就能够以高可信度重新识别出个体身份——即使数据集是不完整的

这一结果在2018年轰动全球的“Facebook数据门”事件也可以被确认。彼时,8700万Facebook用户的个人数据被出卖给一家叫做“剑桥分析”的公司,剑桥分析的“种子用户”来自一款发布在Facebook上的心理测试app,这个心理测试通过分析点赞等社交行为,给一个人进行心理画像。

每个美国人身上有5000个信息点,基于这些信息点,结合心理学分析,就足以建构一个人的性格模型。分析10次点赞行为,算法对你个性的分析就能比你同事更准确。只需要68个“赞”,就可以估计出用户的肤色(准确率95%)、性取向(准确率88%)、党派(共和党或者民主党,准确率85%)。有150个点赞数据,对你的了解程度可以超过你的父母。超过300个点赞数据,对你的了解就会超过你的伴侣。

在这样的数据分析下,也就不难理解为何匿名还能泄露出一个人的数据信息。根据此次结果,研究人员认为,匿名化、非连接互动数据或具有长期可识别性,这可能对隐私保护条例的遵守具有启示意义。他们认为,接入控制和隐私增强系统这类安全措施或能防止这种个人身份被识别的情况发生。