被武器化的大数据

Original 洪延青网安寻路人 2020-02-27

过去的这个周末，美欧各界被两篇长篇调查报道炸开了锅。美国《纽约时报》3月17日发表报道“川普的顾问是如何利用数以千万的Facebook数据”（How Trump Consultants Exploited the Facebook Data of Millions）。英国《卫报》推出了专题——“剑桥分析公司文档”（The Cambridge Analytica Files）。

所有报道中的中心线索人物是Christopher Wylie，也就是下图的红发小伙。Christopher Wylie帮助创立了剑桥分析公司，并一直工作到2014年。这位走向前台的揭发者，向外界讲述了他以及“剑桥分析”是如何“替班农打造了心理战工具”的（‘I created Steve Bannon’s psychological warfare tool’）。

那整个事件中处于另一核心位置的“剑桥分析”是干什么的？据这家公司自己的介绍，其专门向“希望改变听众行为”的企业和政治团体提供服务，利用自己手里掌握的海量信息，能够有针对性地向听众投放宣传材料。

而“剑桥分析”事实上是另一家英国公司“战略传播实验室”集团的子公司（Strategic Communication Laboratories Group，SCL）。顾名思义，SCL实际上也是干着“剑桥分析”的专业，只不过其面向全球，而“剑桥分析”主要针对美国共和党提供服务（“to address the vacuum in the US Republican political market”）。

在Christopher Wylie眼中，“剑桥分析”就是文化战中的武器库（ “arsenal of weapons” in a culture war.）。我们接下来就来了解他为什么这么说？

事件主线

川普、班农、数据、文化战、心理战、Facebook......这些关键词齐聚，不难看出这故事指向何处。简单来说，故事主线就是卫报绘制的下图。

Aleksandr Kogan是剑桥大学心理学教授，但同时又“秘密地”是俄罗斯彼得堡大学副教授，并从俄国政府领取项目资助，研究Facebook用户的情感状态。在剑桥大学，Kogan和其同事从事的研究是“如何从Facebook档案中推知用户的人格和政治倾向”。Kogan同时是一家公司“环球科学研究”（Global Science Research, GSR）的创立者。

Alexander Nix同时是SCL Elections（SCL中专攻政治传播的分部）和“剑桥分析”英国分公司的CEO。Kogan的GSR与Nix的SCL有商业协议，GSR出面获取Facebook的数据。

罗伯特·默瑟（Robert Mercer）是美国对冲基金公司文艺复兴科技（Renaissance Technologies）的联席CEO，亿万富翁，同时也是川普竞选总统的主要金主之一。他出资（1500万美元）与SCL Elections联合创建了“剑桥分析”。这个公司名称正是出自于班农的创意。班农本人也曾担任剑桥分析公司美国总部的副总裁。

为了“洞察目标对象的心理特征并以此影响他们的行为”，红发小伙Christopher Wylie一开始找到剑桥大学心理学系的人。他知道剑桥大学的Psychometrics Centre能够根据用户在Facebook上“喜欢”了什么勾勒出其个性特征，但该中心拒绝与Christopher Wylie合作。但同期在剑桥大学工作的Kogan教授，其个人对合作抱很大兴趣。这是Kogan教授向Wylie发出的一封邮件截图，非常详细地列出了能够被预测的个人特征类型。Kogan教授还指出，如果有更大的样本量，更多的特征预测也不在话下。

说干就干。SCL资助GSR，也就是Kogan教授，开发了一款Facebook APP——“thisisyourdigitallife”。该APP声称可以提供个性预测。当然，也不是谁都可都有资格试用这款APP。用户必须是Facebook用户，并且是美国选民。下载该APP后，用户需要通过Facebook帐户登陆，并同意个人帐号中的“城市”、“点赞”、“好友”等信息被用于“学术研究目的”。注意，不只是自己的信息，还包括好友的信息。

在最开始的试验中，1000名试用者带来了16万的账户信息，也就是说平均每名试用者能够让GSR掌握160个Facebook用户的相关信息。最终，27万人使用了这款APP，让Kogan教授掌握了超过5000万用户的数据！

这些数据再和其他公开的选民信息结合，就能够真实地在现实生活中定位一个个具体个人，并开始对这些个人就行心理画像。换句话说，用Facebook北美5000万用户的数据，搭建起一个可以剖析美国选民的数据模型，并且能够针对性地推送千人千面的个性化政治广告。

据报道，5000万用户大约占北美Facebook总用户的三分之一，占美国所有选民人数的四分之一。在2016年美国大选中，总投票人数约为1.3亿人。川普获得的总票数其实比希拉里还少三百万，但只是因为在几个人口较多的关键州以极其微弱优势险胜才勉强上位。因此，报道的潜台词是——如果川普团队没有拿到这批海量信息，大选的结果就会改写。

从数据安全视角看待该事件

首先，Kogan教授获取数据的方式是Facebook明确允许的，但仅能用于学术研究目的。这也是为什么在3月17日，Facebook发表官方声明，宣布禁止SCL和“剑桥分析”获取其数据。在声明中，Facebook认为“违规”是发生在Kogan教授将数据给了SCL和“剑桥分析”。也就是数据共享环节，而不是数据收集环节。

这其中，还有一个很有意思的事情。在Kogan教授的App大量地从Facebook上拉取数据时，曾经“触发了Facebook的内部预警机制”。Facebook在得到“用于学术目的”的回复后，就不再过问。

从这两点来看，Facebook是不是对“学术研究目的”（以及其他类型的数据业务合作？）的数据收集给了过多的权限？过多的权限体现在两点：

第一，Kogan教授的App要抓取某位用户数据，获得了该用户本人的同意，但是为什么抓取能够延伸到该名用户的朋友的信息？至少这些朋友们从来没有给出过同意。在Facebook的官方声明中，Facebook声称是用户朋友的隐私设定所允许的信息，才能被抓取（“as well as more limited information about friends who had their privacy settings set to allow it”），但是用户的朋友明确知晓在选择隐私设定时，还要考虑被第三方软件抓取的情况吗？等于说，告知是否足够清晰和完整？

第二，Facebook确实在内部有安全机制，在大量数据被抓取时能够触发警报。但是内部的预警是否足够充分？合法的接口、用户、权限，在短时间内爬取海量数据是否符合其他研究人员的行为基线？触发一次警报后是否应该对该合法用户持续监控？预警后是否通过简单的询问就可以解除警报？等等。

当然，公号君最想指出的是，上述事件体现了关键信息基础设施（CII）的另一类安全风险，一类我们经常忽略的安全风险。

Facebook平台日活数超过20亿，掌握如此海量的数据。无论是该平台被“攻击、侵入、干扰和破坏”，都可能在社会、国家层面产生严重后果。记得一个数据，香港700万人口，有将近500万人都在用Facebook。因此，把Facebook当成CII没有任何问题。

对于CII，我们通常关注的是其自身的安全。但是在上文，以及美国媒体报道关于俄罗斯利用facebook平台投放了很多定向广告影响了大选的事件中，facebook没有发生任何信息泄露，也就是没有我们经常强调的CII遭受“攻击、侵入、干扰和破坏”这样的安全事故。这也是为什么在上述事件中，Facebook不认为发生了数据泄露事件。

但很显然，Facebook确确实实被恶意利用了，对Facebook平台之外的更大的环境造成了严重的危害。

Facebook在美国大选问题上饱受指责，原因是美国不少人认为其被俄罗斯利用了。媒体报道，俄罗斯通过第三方在Facebook上购买政治广告，并定向提供给特定人群，帮助川普当选。注意：在美国，购买、发布政治广告是合法的，且Facebook盈利的主要模式就是收集、分析个人信息后，对特定人群定向投放广告。因此，在国会的听证中，Facebook高管抱怨，其实商业模式是合法的，政治广告内容是合法的，只不过问题出在了谁买了并要求投放这些广告。言下之意，让我来审查谁买了这个广告，这个问题平台根本做不了。【以下是Facebook高管的原话】

实际上对于这个情况来说，Facebook这个平台及其掌握的数据，在安全性、保密性、完整性三个方面来说，完全没有问题。问题出在了谁利用了这些数据。由于CII的数据资源肯定不能静止不动、封存不用，将来一定会遇到类似的问题。

换句话说，平台本身没有任何安全风险（这是我们主要关注的内容），但是利用平台对外界造成安全危害，这个方面我们关注非常不够。再由于关键信息基础设施如此重要，就算设施本身没有被破坏，但是一旦被恶意利用后，很可能造成非常严重的后果。

一个是内部视角，即关注平台自身安全，另外一个是外部视角，平台在开展合法业务合作时被恶意利用，对外界造成安全危害。在做CII保护工作时，我们应两手都要抓，两手都要硬。

这件事还有很多方面值得挖掘，留待下回分解吧。

国产光刻机进展太慢？重点不是这个

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

光刻机，官宣了！

因为地铁逃票，警察拔枪乱射，无辜乘客爆头

伍奕蓉，被逮捕