2018-08-10 07:06 人民日报媒体技术股份有限公司
睡前聊一会儿,梦中有世界,大家好。利用抢票软件购买火车票,去比价平台看各家报价,购物前先看看网友留言,置身互联网时代,这些或许再普通不过的生活场景,实际上背后都有一个绕不开的技术,叫做“爬虫”。受党报评论君邀请,今天我们来聊一聊这个话题。
爬虫,是一种“自动化浏览网络”的程序,在互联网上变出万千隐形分身,造访各个网站,辛勤地做着信息的誊写者和搬运工,就像一只虫子在一幢楼里不知疲倦地爬来爬去。最早应用这类技术的是搜索引擎,为的是给用户提供更快更精准的搜索结果。然而近年来,随着技术发展,爬虫不仅游弋到互联网金融、电商、社交等等更加枝蔓的树藤上,也在不断进化自身的能力。获取网站数据、监控同类商品价格、甚至模仿人类行为点赞留言、输入验证码,身手越来越敏捷的爬虫在互联网上可谓无孔不入。
客观来说,在帮助人们从海量信息中快速获取有效信息方面,爬虫技术功不可没,但也给互联网笼罩上真假难辨的迷雾。程序员界有一句话,整个互联网50%以上的流量其实来自于“爬虫”。也就是说,互联网上的大量点击、浏览行为来源于爬虫,而非人类。有人说互联网世界里,“你永远不知道屏幕后面坐的是一个人还是一条狗”,如今可能还要加上一条,“你永远不知道互联网上的那只脚印是人还是虫留下的”。
睡前聊一会儿,梦中有世界,大家好。利用抢票软件购买火车票,去比价平台看各家报价,购物前先看看网友留言,置身互联网时代,这些或许再普通不过的生活场景,实际上背后都有一个绕不开的技术,叫做“爬虫”。受党报评论君邀请,今天我们来聊一聊这个话题。
爬虫,是一种“自动化浏览网络”的程序,在互联网上变出万千隐形分身,造访各个网站,辛勤地做着信息的誊写者和搬运工,就像一只虫子在一幢楼里不知疲倦地爬来爬去。最早应用这类技术的是搜索引擎,为的是给用户提供更快更精准的搜索结果。然而近年来,随着技术发展,爬虫不仅游弋到互联网金融、电商、社交等等更加枝蔓的树藤上,也在不断进化自身的能力。获取网站数据、监控同类商品价格、甚至模仿人类行为点赞留言、输入验证码,身手越来越敏捷的爬虫在互联网上可谓无孔不入。
客观来说,在帮助人们从海量信息中快速获取有效信息方面,爬虫技术功不可没,但也给互联网笼罩上真假难辨的迷雾。程序员界有一句话,整个互联网50%以上的流量其实来自于“爬虫”。也就是说,互联网上的大量点击、浏览行为来源于爬虫,而非人类。有人说互联网世界里,“你永远不知道屏幕后面坐的是一个人还是一条狗”,如今可能还要加上一条,“你永远不知道互联网上的那只脚印是人还是虫留下的”。
爬虫也分善恶,恶意的爬虫往往让被爬的网站浑身不自在,自从爬虫诞生的那一刻起,反爬的战争就无可避免。比如爬虫最爱光顾的出行领域,据了解,89.2%的流量冲着12306订票网站而去,不仅给网站服务器造成巨大压力,也扰乱了正常的订票秩序。“请在王珞丹和白百何中选出所有的白百何”“请点击下图中所有的郭敬明”,近年来12306订票网站的图形验证码备受吐槽,它的设计初衷恰恰是为了防止恶意爬虫刷票。再比如一些聚合电商、比价平台自动把各大电商的商品扒下来,这可不是出于好心帮助卖货,而是为了分夺流量这杯羹,正因如此,一些电商不断升级应用防火墙,把爬虫挡在门外。
如果说爬虫与反爬虫是围绕利益的争夺战,那么对我们普通人来说,最应该关心的是,面对恶意爬虫,如何保护个人隐私不被窃取。几年前,就曾有互联网公司因为违规使用爬虫技术而对簿公堂,未经允许、擅自抓取、违规复制,极有可能导致用户信息泄露。今天,网络场景应用早已成为日常生活的一部分,我们的身份信息、消费账单、人脉关系通过爬虫技术都不难被获取,一篇报道就曾经解密数据公司,是如何利用爬虫获取用户在社交软件上的行为轨迹,进而绘制出完整的用户画像,进行隐私贩卖。凡此种种,违背了互联网的宗旨,更触犯法律的底线。
实际上,爬虫技术诞生之初,就有过“君子协定”,约定了禁爬的区域、隐私的保障,但当爬虫与利益勾连得越来越紧密时,这些协定能否维持下去?当前堵截互联网上密密麻麻、行踪诡谲的恶意爬虫,如果只是依靠“魔高一尺、道高一丈”的技术竞速,又何时是个尽头?由此来看,破除爬虫使用上的乱象、让技术造福用户,一方面需要重申互联网规则,将多维交织的行业规则化为身体力行的从业守则,减少市场主体恶意使用爬虫技术的情况;另一方面也需要治理跟上发展的脚步,用制度和法规划出技术应用的合理轨道,避免技术发展中方向走偏、价值走失。
这正是:技术从来双刃剑,扬善抑恶最考验。
(人民日报中央厨房·思聊工作室·杨 旭)