数据保护:如何做是好?

一、失控的数据

数据(个人信息)保护的问题几乎令人绝望,不仅是对个人而言,对企业来说也是如此。

虽然所有人都认为个人对数据的权利无可厚非,但如何去保护这样的权利却是难以落实。几乎所有人都要饱受数据泄露之苦,也几乎所有企业都会因为法律为数据保护设定的“过高”要求叫苦不迭,认为增加了合规成本。当前,无论是中国、美国或是欧盟,各国(区域)法律关于数据收集、使用大都以用户的“知情-同意”为合法的基础,可以说“知情-同意”是当前数据保护领域最为重要的基石之一。

在“知情-同意”的背后,是用户对厂商的授权,授权厂商根据用户“同意”的内容收集、使用个人信息。但这样的同意机制导致了各方关于数据保护问题的绝望。一方面“同意”形同虚设,少有用户会去关注自己到底点击同意了什么;另外一方面,在一些场景下,获得“同意”几乎是不可能完成的任务。比如公共场合使用人脸识别技术对人脸影像进行商业性的收集、分析,几乎没有获取用户同意的可能,因此旧金山严格限制人脸识别技术的使用。而在更多情况下,用户所面临的是如果拒绝提供个人信息,厂商则会拒绝提供服务。

在数据利用的法律关系下,厂商草拟的“隐私政策”是核心的文件,厂商通过“隐私政策”向用户告知数据利用的范围与方式,用户点击同意。但问题在于这样一份重要的协议几乎无人阅读,而“隐私政策”本身也佶屈聱牙,难以理解。况且,对用户来说读与不读又有何差异呢?因此,各国的“隐私政策”都更像是一份为了应付监管,而非构建与用户之间法律关系的文件。因此,“知情-同意”的窘境是用户个人在很多时候既不知情,也没法不同意。而在此之上构建的数据经济大厦,有必要重新审视。

二、数据信托

在“知情-同意”的范式下,数据没有得到妥善保护的,人们开始尝试构建新的法律框架来保护数据,比如数据信托。

在英国政府一份人工智能的报告中,提出数据信托并非是一个法律实体或法人机构,而是一种新型可复用的法律框架,旨在改善数据共享的问题。简而言之,数据信托可以被认为是在信托框架下,提供独立数据管理的法律结构。英国政府以及在2019年1月启动了三个试点项目:处理非法野生动植物贸易,减少食物浪费和改善格林威治的公共服务。

根据《信托法》,信托“是指委托人基于对受托人的信任,将其财产权委托给受托人,由受托人按委托人的意愿以自己的名义,为受益人的利益或者特定目的,进行管理或者处分的行为。”在数据信托的框架下,数据主体(委托人)个人基于对受托人的信任,将数据委托给受托人,由受托人案数据主体的意愿以自己的名义,为数据主体的利用或特定目的,对数据进行管理。数据信托所带来的,是将原先数据主体(用户个人)的“单打独斗”变成一群数据主体(委托人)“抱团取暖”,增强议价能力。但问题依然没有解决,如何控制数据?

三、数据工人,联合起来!

在数据信托模式下,数据依然被视为一项资产,而有的理论更加激进,认为应将数据视为劳动进行保护。在《激进市场》这本书中提出了“数据即劳动”的观点,与其将用户都视为消费者,在数据经济中个人用户更像是劳动者。

与工业革命开始开端时的工人类似,用户(工人)们没有选择,只能提供自己的数据(劳动力)。而科技企业美其名曰用户们享受了免费的服务以作为对价,但用户往往并没有选择的权利。法院在朱某与百度隐私权纠纷案也认为:“个性化推荐服务客观上存在帮助网络用户过滤海量信息的便捷功能,网络用户在免费享受该服务便利性的同时,亦应对个性化推荐服务的不便性持有一定的宽容度。”贡献数据本身就是劳动,硅谷习惯于将这样的工作外包到印度,中国的互联网公司也将这样的工作外包给三四线城市的数据工厂。实际上,远不止外包服务方,所有的互联网用户在数据领域都扮演着数据工人的角色。比如使用Google时不时会跳出的reCAPTCHA验证,有时会要求用户对路况、道路标示进行识别,实际上是在帮Google训练自动驾驶;对验证码的识别是在帮Google训练OCR技术,这样的例子不一而足。

在这样的背景下,仅将数据视为财产性权益、人格权益远远不够,还应该将数据也视为是一种劳动。将数据视为劳动,意味着我们仅保障“知情-同意”是不够的,还应当对双方的权利义务是否平等、合理的框架下进行审视,需要政府方面的监管部门、需要劳动者自发组成的“数据工会”的介入,而非是数据资本家拿走全部的数据的劳动成果,劳动者们仅获得最基本的免费服务。20世纪初,亨利·福特通过提供工人待遇,实现8小时工作制,从而让公司的人员流动性显著下降;换个视角来看,或许现在部分厂商将隐私保护视为核心竞争力也是同样的思路,以留住数据工人——用户。

四、技术基础

数据保护的现状是由各种因素所形成的合力所决定的,其中最重要的一股力量是技术。法律框架需要建立在技术基础上,无法凭空设立。之所以厂商在数据保护中占有主导地位,无论是面对监管或者用户都有着压倒性的优势,是因为数据为厂商所控制,个人与监管部门很难跨越厂商,实现对数据的控制。因此,数据在制度设计上无不是以厂商为中心。即使是讨论数据信托或是数据即劳动,一个绕不开的问题是如何增进用户对数据的控制。

GDPR通过立法进行了一些尝试,比如规定用户对数据访问权、可携带权、被遗忘权等,但这些权利的行使并不顺畅。Google、Facebook、Twitter与微软共同发起了Data Transfer Project,以方便用户实现可携带权,但截止到目前该项目仍在开发。在现有的技术框架下,非巨大的投入用户无法实现对数据的控制。

在网络空间,“加密”是控制数据的最有效方式之一。加密决定了用户对数据具有何种权限,可以进行何种操作。 @Suji Yan 在RadicalxChange上海的一个活动中的演讲给我留下深刻印象,提出通过加密保护数据,通过保护数据来保护劳动,通过保护劳动来保护经济。具体而言,通过第三方系统,让用户能够加密Facebook、Twitter等设计媒体里面的内容,使得Facebook、Twitter这样的厂商无法直接获得用户的内容,或是获取内容也无法解密,从而让用户在与厂商博弈时获得更大的议价能力。就像互联网厂商让电信厂商沦为流量提供商(电信厂商难以破译流量内的数据)一样,加密技术也能够让互联网厂商成为平台提供商。而在这样的假设下,区块链技术看似有着天然的优势:既去中心化,又天然具有加密特性。这或许会是区块链技术运用的一条蹊径。

除了加密,“联邦学习”(Federated Learning,也翻译为“联盟学习”)技术看起来也是一项颇为有助于数据保护的技术。联邦学习是一种新的机器学习模型,简而言之,是在数据在不离开用户设备的情况下完成机器学习,即无需将数据上传至厂商服务器,在用户终端完成对算法的训练,仅需要将训练完成后的结果上传至服务器。联邦学习将原本中心化的训练过程分散于各个终端,因为数据未离开用户设备,训练结果也无法还原出原始数据,在这样的情况下用户自然对数据具有更多的掌控,看起来是一个两全之策。目前,Google的输入法正在使用联合学习来改进预测类型以及数千万设备的表情符号预测。联邦学习就像是《火影忍者》里面的“影分身之术”,分身会将学习的经验返回给实体,而风险却被减低,当然需要厂商有足够的“查克拉”(技术能力)才有可能部署合适的技术保护用户隐私。

发表评论

电子邮件地址不会被公开。 必填项已用*标注