每日商报讯 (记者 祝云燕) 用了一天,爬虫的百度指数就从10月20日的1667涨到10月21日的6429,而当天双11的百度指数只有3893,可见被大众关注的程度。
10月21日,51信用卡总部大厦有员工被带走调查的事件掀起轩然大波。随后,有媒体勾勒出爬虫在这一事件中扮演的角色——51信用卡技术团队涉嫌利用爬虫技术,在互联网上帮助催债人违规获取了欠款人的个人通讯录、地址定位等敏感信息。
一瞬间,这场风波让爬虫这个专业名词一下进入大众视野。在各种新闻报道里,这些“虫子”似乎无所不能,可以替企业爬取到任何想要的信息。那么它们究竟是什么?又是怎么成为不法工具的?
使用App就会被窃取信息? “觅食”的爬虫很快很全面
爬虫是什么?简单来说,它是程序员写出的代码,是一种技术。它的基本操作是模拟人的行为去各个网站“溜达”,点点按钮,查查数据,还能把看到的信息取回来,就像是在一张巨大互联网络上爬行“觅食”的虫子,比人类的速度更快,覆盖场景更全面。
近些年,由于大数据处理和数据挖掘技术的发展,爬虫技术在大数据分析的应用越来越广泛。不过有一些披着“大数据”外衣的公司,却使用爬虫抓取用户未公开、未授权的个人敏感信息,甚至违规留存、使用、买卖。这些数据如果被放贷公司拿到,就可以进行分析用户的还款能力和信誉度,来进行广告投放和短信推送,因此不少人的手机上或者邮箱里总能收到一些贷款广告。
我们的信息是在什么样的情况下会被窃取呢?杭州某电商公司一位程序员告诉记者,我们在使用电脑或手机上的产品、App时,主动或被动留下的个人信息都会留存在网站、App的服务器上,这些都有可能被爬虫窃取,就看爬虫技术高明与否。“之前一家科技公司曾经向我介绍过一个爬虫产品,说是可以爬取支付宝数据,只需要用支付宝扫描一下二维码,就可爬取支付宝用户的真实姓名、手机号、收货地址、近一年的购物信息、交易记录等。”
不过程序员也对记者表示,像支付宝这么严谨的金融科技公司,有一套严密的反爬虫技术,用户信息是很难被窃取的。此外,如果要避免信息不被爬虫窃取,最好选择大公司的产品,一般来说大公司都会有反爬虫系统,而且对用户信息保护的意识更高,反之泄露信息的可能性越大。
爬虫技术分“善恶”
法律制度做出明确限定
虽然爬虫看不见摸不着,但我们每天的生活却被它们密密麻麻地包围了。比如我们每天使用的搜索引擎就利用了爬虫技术,每天放出无数爬虫到各个网站,抓取信息,然后排着队供给检索的人。还有抢票软件,无数个爬虫帮你不断刷新12306 网站的火车余票,一旦发现有票,就马上拍下来,然后对你喊:快来付款。
如果爬虫只是爬取这些信息,还不足酿成大祸,但当爬虫盯上了哪些可利用的隐私数据时,就“大事不妙”了。此次51信用卡被查事件,就是涉嫌利用爬虫技术违规获取了欠款人的个人通讯录、地址定位等敏感信息。
可以说,爬虫是分“善、恶”的。善意的可以让我们快速在茫茫互联网世界获取想要的信息,恶意的却会窃取互联网用户的个人资料,包括姓名、身份证号、电话、邮箱地址、QQ号、通信地址等。我们日常之所以会接到源源不断的骚扰电话,很可能就是被爬虫抓取了个人信息。
那么,爬虫有罪吗?什么情况下企业会因为使用爬虫而被绳之以法?我国2017年6月1日施行的《中华人民共和国网络安全法》第四章第四十一条和四十四条对个人隐私信息数据的收集和使用做出明文规定,这也与爬虫直接相关。其中第四十一条写明:网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意。不过也有业内人士表示,围绕网络爬虫合法性的讨论仍然存在,情况也比较复杂,目前的趋势下,往往取决于具体的案例影响。