数据法律保护的蹊径:技术路线

一、数据法律的研究基础

数据已经成为诸多机构最为重要的资产之一,“数据资产”的概念不断被提及。而5G标准普及在即,数据在存储、传输、处理能力的飞速提高,随之而来的是数据量猛增与数据流动的日趋频繁,所以5G不仅会带来新的商业模式,更多的数据风险与数据争议也会随之而来。数据质量的提升无疑会带来更大的商业价值,也会带来更多的风险与纠纷。

数据的权利(益)、竞争的边界都需要建立在法律对计算机与网络空间技术构架的理解之上。网络空间的逻辑与规则是构建、理解规则的基础。研究物权的前提是对现实空间里的物理规则有所了解,只是物理规则我们已经习以为常,是中学的必修课程。但网络空间的规律我们却相对陌生,很多规律还不属于我们的常识范畴,但抛开技术构架所搭建的数据规则有如沙滩上的城堡,可能外表绚丽自洽,但缺少根基,无法真正起到指引与规制数据经济的作用,无法在执法与争议中适用。只有对技术构架有精准的理解,才能有效提出诉讼请求,不至于让法院根据诉讼请求的裁判结果难以执行。

当法律开始关注网络日志的留存时间,当国家技术推荐标准为律师们所关注,在数据保护的领域,法律技术化与技术法律化的趋势愈发明显,数据的保护需要法律与技术齐头并进。而在诸多技术中,最值得关注的是数据库技术(控制与操作数据)、加密技术(划定数据权利的边界)以及爬虫技术(获取数据)。

二、增删改查

在网络空间内,数据是以数据库的形式保存在存储设备中,因此数据库的技术特征成为研究数据保护方式不可回避的问题。

在设计数据库时,一个必须要考虑的问题是:用户有何种权限对哪些数据进行访问。无论是登录操作系统、在社交媒体上发帖、搜索引擎爬取数据……背后都离不开系统的权限的设计,不同的用户权限可以进行不同的操作。简而言之,当我们对数据进行访问或操作时,基本流程是:

  1. 对用户身份进行鉴别,判断用户是否有权限
  2. 如果有权限,是何种权限

对身份进行验证并不是什么新鲜事前,千年前的虎符、鱼符都是身份验证的工具,不同的虎符、鱼符对应不同的身份与权力,可以调动不同数量的军队或是进入受限制的区域。在网络时代,以用户名密码、验证码、密钥为代表的身份验证方式取代了传统的“动物符”,成为现代身份鉴别的方式。而对数据进行访问,主要是进行“增删改查”四种操作。对数据的占有、使用、收益和处分需要通过最基础的“增删改查”来实现,这也让传统的所有权、物权与知识产权理论不能直接适用于数据领域。

最直观的一个例子,“所有权”的说法就很难适用于数据,因为数据本身不似物那样具有排他性,可以同时开放权限给多个用户,所以无论是GDPR还是《个人信息安全规范》都使用“数据(个人信息)控制者”的概念。对于数据,控制比所有更加重要,而控制的基础,就是通过身份鉴别实现访问控制。又如对数据交易,并不似物的交易那样需要所有权的转移,或是像有些知识产权那样需要登记生效,数据交易更多的是控制能力的分享,比如通过开放API接口即可满足买方对数据使用的需求,背后其实是通过添加用户并给予一定的权限,让数据的买方仅能访问数据,无法实现数据的修改或删除。

其实通过身份鉴别与权限对数据进行保护的思路并不是什么新的说法,在《刑法》对数据的保护中,“非法获取计算机信息系统数据”即建立在这样的基础上:“违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据”。“非法获取计算机信息系统数据”的本质即是通过技术手段,获取超越自身权限的数据。黑客窃取数据的一个常见手段就是“提权”,提高自己在系统中的权限。

三、哈希与加密

对数据的存储的有效洞察可以让数据资产得到更有效的保护。

“哈希”是英文hash的音译,也被翻译为散列函数,是最为常见的算法之一。哈希算法能够保证:

  1. 不同的输入结果对应不同的哈希值
  2. 如果两个散列值是不相同的,那么这两个哈希的原始输入也是不相同的。

简而言之,哈希值相当于是原始数据的“指纹”,不同人的指纹具有唯一性,但根据指纹无法还原出指纹所有者的画像和其他身份信息。因此哈希算法被广泛运用于加密与消息摘要领域。

在网络空间中,对用户密码的存储是一件非常危险的工作,如果数据库中存储未加密的密码,则数据库一旦被非法访问,用户的密码即暴露给黑客。因此密码通常会使用哈希进行加密,将加密后的密码的哈希值存储于数据库中,即使哈希值被黑客非法访问,也无法还原出密码本身。

从构架角度理解数据将有助于更好地保护数据资产。在北京焦点互动信息服务有限公司南京分公司(“南京焦点”)诉北京百度网讯科技有限公司(“百度”)信息网络传播权纠纷案中,因为在网盘在存储不同账号的数据时,对于重复文件只保留一个,不同用户都使用连接指向同一个文件,每个文件都会通过哈希算法计算出唯一的一个“指纹”,以避免浪费存储空间,所以南京焦点向百度寄送的侵权告知函中除了列出涉案作品的中文名称以及对应的英文名称等信息 ,还记载了涉案作品的哈希值,法院也支持了这样的诉讼请求。可见,只有对数据在网盘中的存储方式有深入理解,才有可能在律师函或诉讼请求中提出准确的要求,对相关文件进行彻底删除,维护企业的数据资产。

在网络空间,我们通过加密来实现访问控制。加密是保护数据资产最有力的方式之一,就像我们保护自己家里财产最便捷有效的手段是安装防盗门一样。在现实空间,钥匙与门锁划定了我们家庭财产的边界;在网络空间中,权利的边界是由加密方式所划定的。因此,《电子签名法》与《密码法》(制定中)虽然并不引人注意,但却会成为数据资产保护的基石。甚至可以说,加密是数据排他性的基础,是对抗数据具有经济利益的基础。加密能够让数据能够具有排他性,具有经济效益。

四、爬虫

爬虫是通过自动化程序,自动访问并存储公开数据的程序。爬虫代码本身并不难写,没有编程基础的人也用一整天时间学会写爬虫(网上随处可见“X分钟,X行代码教你写python爬虫!”这样的文章),甚至不用写代码,网上也有现成的爬虫工具可以使用。

爬虫程序是获取数据最常见的方式。围绕着爬取、利用数据也衍生出了大量的争议。爬虫程序的大规模使用,已经与网络攻击无异,会降低网站的运行效率,比如裁判文书网已经不堪重负,最高人民法院在回答用户提问时表示:

问题一:网站运行速度慢,故障频繁,经常出现页面无法显示的问题,经多次刷新后才能显示,并且持续不了几分钟,反复出现无法显示的问题。建议对网站加强维护,提高网站运行效率。
答复:由于中国裁判文书网公开文书数量和影响力不断增加,访问用户数不断增长。同时,5月初以来,大量技术公司通过爬虫系统无限制并发访问非法获取裁判文书数据,造成网站负荷过大,大量正常用户请求堵塞,访问出现速度慢或部分页面无法显示等现象。为更好地确保正常用户访问性能,2018年7月,我们以验证码的方式上线系统软件防爬功能。由于网站访问策略变更,且调整优化未一步到位,确实降低了正常用户的访问体验。通过后台监测,八月中旬以来,中国裁判文书网访问速度基本正常,95%的首页响应速度基本保持在3秒以内,网站性能已恢复稳定。后续,我们将不定期更新防爬虫技术,加强网站维护,提高网站运行效率和稳定性。

因此,在2019年5月国家网信办发布的《数据安全管理办法(征求意见稿)》中,拟通过部门立法的形式,尝试对爬虫的使用进行限制:

第十六条 网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。

从数据访问的角度来看,如果是爬取公开的数据,通常不会被认为是侵权。Google、百度等搜索引擎都是这么爬取的,爬虫程序本身并不没有超越数据所允许访问的权限。robots协议是指网站所有者利用robots文本文件指导他们的网站如何应对网络机器人,允许还是拒绝网络机器人抓取信息的协议,但robots文本文件更像是一份“君子协定”,没有真正通过访问控制的方式让robots.txt具有技术上的强制力,虽然违反robots协议也有可能被认为是侵权。而一旦网站使用验证码这样更强效的防护措施,绕过防护措施的行为就很有可能侵犯数据保密性(机密性),也更容易被认定侵犯他人合法权益。

数据控制者对待爬虫程序的难题在于对公开的数据的访问进行身份鉴别,限制非自然人用户的访问,但又难以准确对用户是否是自然人进行识别,这就导致了爬虫与反爬虫攻防的不断反复,此消彼长。

后记:数据资产时代数据保护方案

2019年5月,国家网信办第二届数字中国建设峰会上发布《数字中国建设发展报告(2018年)》。报告显示,2018年我国数字经济规模达到31.3万亿元,占GDP比重达34.8%。当数据正在成为最重要的资产,数据经济成为支柱(之一),理所当然需要投入资源对数据进行保护,开展未雨绸缪的工作。这不仅是数字资产保护的需要,更是维护网络空间安全的需要。

在物理空间中,用非法律的手段解决法律问题早已司空见惯,比如加高的围墙、换装防盗门有时比物权理论更能有效保护我们的家园,在香烟上印刷吸烟警示图片比抓违法吸烟者更能实现控烟的目的。技术的进步给了维护权利更多方案,比如防盗门比木门更能保护住家的安全,128位的加密比64位的加密更能保护数据的安全。

2015年,最高院发布了第45号指导案例——“北京百度网讯科技有限公司诉青岛奥商网络技术有限公司等不正当竞争纠纷案”。这是一起典型的“流量劫持”案件,青岛奥商网络技术有限公司与中国联合网络通信有限公司青岛市分公司等企业在山东省青岛地区,利用网通的互联网接入网络服务,在百度公司网站的搜索结果页面强行增加广告,即青岛联通的用户在访问百度时会弹出(比如在右下角)联通的广告,二其他区域的用户不会有同样的问题。法院历经两审,判决奥商网络公司与联通青岛公司连带赔偿百度人民币20万元。诉讼固然解决百度在山东的困扰,但并非所有的企业都会有百度这么好的诉讼资源,诉讼也从来都是耗时费力,结果也未必可控。流量劫持的本质是数据在传输过程中被篡改,从技术角度,最常见的对策是在传输过程中进行加密,即用https协议替代http协议,可以最大限度防御数据在传输过程中被篡改的风险,避免流量劫持。比如Google在展示搜索结果时会优先显示使用https协议的站点,维基百科会默认启用https协议……这里我无意比较法律方案与技术方案孰优孰劣,双管齐下始终才是更好的选择。

在数字经济为王的时代,数据的保护不是技术与法律的单选题,是需要技术与法律齐头并进,才能让数字经济商业模走得更快、更远。

发表评论

电子邮件地址不会被公开。 必填项已用*标注