常见的数据资源池 数据类诉讼纠纷中常见的资源池至少有三大类:公共数据:政府或非政府组织开放的公开信息个人数据:个人在社交媒体平台上发布的信息商业数据:各类网站程序发布的信息 从竞争对手、合作伙伴或者行业网站程序抓取数据,把对方网站变成自己最大的数据库,是很多爬方眼中效率最高的方法,也是诉讼纠纷高发地。 商业数据中,如果目标数据是涉及以下内容,效率越高、踩雷越快:对方的运营数据:比如用户、供应商、合作伙伴和员工等信息对方的外部关联方数据:比如对方和合作伙伴、供应商、客户签订数据交换协议而获取或共享的关联方数据)对方的封存数据:通常外部无法访问,即使在企业内部也是有严格的访问和授权流程。 如果一定要突破对方的技术保护措施爬数据,后果可能就比较严重。 坚持破解反爬措施的案例 A公司在2015年6月成立后研发了XX神器等App。 2018年开始使用网络爬虫技术,爬取B公司(被害单位)经营的某网站房产数据。 被害单位发现后采取了反爬取措施。 A公司使用破解验证码、绕开挑战登录等方式破解某公司的反爬取措施,继续抓取数据,然后: 将非法获取的房产数据存放在自己的服务器中,供XX神器App调用; 并向App用户收取会员费盈利。 截至案发,A公司的上述行为给B公司造成直接损失共计人民币10多万(网络资费、人力成本等),相关费用损失共计300多万。 公诉机关以非法获取计算机信息系统数据罪对A公司及以下自然人提起公诉:甲:A公司法定代表人及总负责人,全面管理公司工作。乙:技术部主管,主管数据爬取工作,在甲的指挥下具体安排非法获取房产数据的各项工作。丙:爬虫工程师,负责破解某网站的反爬取措施,包括:购买破解某公司验证码的程序,负责日常服务器上爬虫程序的维护。 法院认为被告单位和自然人被告均构成非法获取计算机信息系统数据罪,分别判处:被告单位,判处罚金20万。甲是被告单位直接负责的主管人员,判处有期徒刑一年六个月,罚金人民币2万。乙是被告单位其他直接责任人员,判处有期徒刑一年二个月,罚金1万。丙是被告单位其他直接责任人员,判处有期徒刑八个月、罚金1万。 法院对被告单位从轻处罚,对3个自然人被告减轻处罚,是因为甲主动投案、如实供述犯罪事实、当庭自愿认罪认罚,系自首;乙丙在共同犯罪中系从犯,当庭自愿认罪认罚;案发后A公司和甲乙丙已经赔偿B公司经济损失(100万)并获得谅解。 证据包括:证人证言,被害单位的报案材料、说明、发票,腾讯云出具的IDC账单,工商登记材料,起赃经过、扣押清单、物证照片,和解协议,户籍材料、劳动合同、到案经过,现场勘验检查笔录,北京信诺司法鉴定所出具的司法鉴定意见书,被告人供述等。 API与计算机系统的关系 2012年,K公司开发上架了一款歌曲和MV视频播放AppY。 20152017年,某甲就职K公司期间,负责ios端开发以及苹果商店上架等相关事宜。 2018年,YApp因版权问题下线,但是已经下载的客户还是能正常使用,公司也会对App的内容进行更新。 2019年1月,某甲开发的Y无广告高清纯净版App(简称仿制App)并在苹果应用商店上架以供下载,并通过收取下载费用获利。 某甲写了一个程序,可以模拟真实用户的方式访问K公司服务器,从而抓取到K公司的服务器数据,使用户可以通过访问仿制App看K公司服务器存储的内容。 这个仿制App不是2019年新开发的,是某甲2015年面试时提交的一个作品,当时名叫mt,开发时没用K公司的服务器,入职后才开始用。虽然某甲没有接入公司服务器的权限,但是他一直用、公司也没人制止,他就认为公司是默许了。2018年公司App下线后,他发现很多用户都还是需要这类服务,就把自己的App上架了。上架后,因为很多人找不到这个名字,才改名叫Y无广告高清纯净版。 K公司调查中发现:仿制App没有自己的服务器,用的都是K公司的服务器;仿制App使用的所有音视频资料、图片资料等均是入侵K公司服务器使用抓包软件获取的数据;用户使用仿制App播放音视频,都是使用K公司的带宽走流量,造成公司巨大损失;根据第三方做数据统计,仿制App下载量为6571次,一次收费68元人民币。 关于爬取数据的范围,赵某被捕后供述称: K公司遵从爬虫协议,对数据有的设置了保护、有的没有,仿制app使用的都是没有设置保护的数据。 赵某辩护人提出辩护意见称: Yapp所有的防护都是对API的保护,API属于接口信息,某甲是使用该接口调用数据,即使破解了对API的保护,也并没有侵犯非法获取计算机信息系统数据罪的客体,因而不构成本罪。 法院分析称: API与计算机信息系统的关系是技术问题,据在案证据无从判定,但在案证据可以证明:第一,K公司虽然遵从爬虫协议,但这种遵从所对应的数据公开不是无限的,而是有边界的,K公司也同时对Yapp中的数据设置了层层防护,且这种防护措施即使在公司内部也只有少数人才能知晓;第二,被告人曾经是K公司Yapp核心开发人员,非常清楚公司对于Yapp的设置的各层防护,利用了自己熟悉K公司防护设置及客户需求的便利,结合自己的专业能力设计的仿制App,可以随意对Yapp中的数据进行调取并使用;第三,K公司的数据存储于公司的服务器之中,而被告人没有自己的服务器,其仿制App使用的数据是存储于K公司的服务器之中的数据。 综上,无论这种调取并使用数据是侵入到计算机信息系统内部,亦或是通过API接口进行,均是通过一定的技术手段实现,即使路径不一,结果也应当视为已经获取了Yapp中的数据。 最终,法院认为某甲法治观念淡薄,为牟私利,未经K公司授权或者同意而以非法方法获取K公司Yapp中的数据并以此获利19万余元的行为已构成非法获取计算机信息系统数据罪,且属情节特别严重,应予惩处。 最基本的收集规则 数据类立法几乎都会有以下要求: 任何单位和个人收集、存储、使用、加工、传输、提供、公开数据资源,应当坚持合法、正当、必要、精准和诚信原则,遵守网络安全、数据安全、密码安全、电子商务、个人信息保护等有关法律、法规以及国家标准的强制性要求,不得损害国家利益、社会公共利益或者他人合法权益。 如果做不到: 从计算机信息系统安全、数据安全、网络信息安全到个人信息保护、知识产权保护,法律法规不断完善,侵犯的法益不管落到哪个领域,民商事诉讼或者行政处罚、刑事追责,总有一个边界在。 所以,利用爬虫技术抓取外部数据前还是要有一个立项流程,至少讨论一下:为什么要爬?爬谁?目标数据是什么?对方有没有协议?有没有反爬技术措施?如果是客户要求爬的,有合同吗?有授权吗?用途是什么?如果侵权,谁负责? 毕竟不是所有的公司行为都没有个人责任。