每日商报讯 (记者 祝云燕) 用了一天,爬虫的百度指数就从10月20日的1667涨到10月21日的6429,而当天双11的百度指数只有3893,可见被大众关注的程度。 10月21日,51信用卡总部大厦有员工被带走调查的事件掀起轩然大波。随后,有媒体勾勒出爬虫在这一事件中扮演的角色——51信用卡技术团队涉嫌利用爬虫技术,在互联网上帮助催债人违规获取了欠款人的个人通讯录、地址定位等敏感信息。 一瞬间,这场风波让爬虫这个专业名词一下进入大众视野。在各种新闻报道里,这些“虫子”似乎无所不能,可以替企业爬取到任何想要的信息。那么它们究竟是什么?又是怎么成为不法工具的? 使用App就会被窃取信息? “觅食”的爬虫很快很全面 爬虫是什么?简单来说,它是程序员写出的代码,是一种技术。它的基本操作是模拟人的行为去各个网站“溜达”,点点按钮,查查数据,还能把看到的信息取回来,就像是在一张巨大互联网络上爬行“觅食”的虫子,比人类的速度更快,覆盖场景更全面。 近些年,由于大数据处理和数据挖掘技术的发展,爬虫技术在大数据分析的应用越来越广泛。不过有一些披着“大数据”外衣的公司,却使用爬虫抓取用户未公开、未授权的个人敏感信息,甚至违规留存、使用、买卖。这些数据如果被放贷公司拿到,就可以进行分析用户的还款能力和信誉度,来进行广告投放和短信推送,因此不少人的手机上或者邮箱里总能收到一些贷款广告。 我们的信息是在什么样的情况下会被窃取呢?杭州某电商公司一位程序员告诉记者,我们在使用电脑或手机上的产品、App时,主动或被动留下的个人信息都会留存在网站、App的服务器上,这些都有可能被爬虫窃取,就看爬虫技术高明与否。“之前一家科技公司曾经向我介绍过一个爬虫产品,说是可以爬取支付宝数据,只需要用支付宝扫描一下二维码,就可爬取支付宝用户的真实姓名、手机号、收货地址、近一年的购物信息、交易记录等。” 不过程序员也对记者表示,像支付宝这么严谨的金融科技公司,有一套严密的反爬虫技术,用户信息是很难被窃取的。此外,如果要避免信息不被爬虫窃取,最好选择大公司的产品,一般来说大公司都会有反爬虫系统,而且对用户信息保护的意识更高,反之泄露信息的可能性越大。 |