科技资讯
2016 NO.34
SCIENCE & TECHNOLOGY INFORMATION
信 息 技 术
35
科技资讯 SCIENCE & TECHNOLOGY INFORMATION 大量的数据能够让传统行业更好地了解客户需求,提供个性化的服务。定制化服务的关键是数据。如果说第三次工业革命将是一个从大规模制造向大规模定制演进的过程,那么大数据时代则是另一个科技革命拐点。数据能告诉人们,每一个客户的消费倾向,他们想要什么,喜欢什么,每个人的需求有哪些区别,哪些又可以被集合到一起来进行分类。大数据是数据数量上的增加,以至于人们能够实现从量变到质变的过程。
因此掌握一些采集数据的方法是非常必要的。Masaki MORI 等人提出了一种从新闻网页集中识别、总结及跟踪事件的新方法,主要通过有效的时间标签聚类的方法识别、发现新事件,基于聚类使用KeyGraph算法进行事件跟踪,使用后缀树算法进行聚类摘型[1]。
KanagasabiRajaraman等人在话题识别与跟踪的基础上应用自组织神经网络进行网络舆情趋势分析,提出了一种增量聚类算法对网络中的数据流进行挖掘以确定舆情演变趋势。
1 网络爬虫原理
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其
汽油价格92号放入等待抓取的URL队列。
2 利用R 语言软件获取数据
R语言作为一个开源的统计软件,它最大的优势主要体现在其软件包生态系统上。在R语言中有一个可以获取网络数据的RCurl包,它的开发者Duncan Temple Lang现任加州大学U.C. Davis分校副教授。RCurl这个程序包提供了由R到libcurl库的接口,从而实现HTTP的一些功能。例如,从服务器下载文件、保持连接、上传文件、采用二进制格式读取、句柄重定向、密码认证等等。
迈巴赫撞劳斯莱斯利用RCurl包采集数据的基本步骤如下。(1)首先利用getURL获取URL。
tmp<- getURL(url="www.baidu", debugfunction = d$update, verbose = TRUE)#获取URL
(2)字段分割。
字段分割函数:str_split_fixed (x, split, n)(3)getForm()函数。
# 在百度里面搜索“rcurl”的url为(浏览器为google chrome):
url<- c("www.baidu/ ")(4)XML简介。library(XML)
DOI:10.16661/jki.1672-3791.2016.34.035
基于R 语言的网络爬虫技术研究
吴睿 张俊丽
(西安欧亚学院SIGMA数据分析研究所 陕西西安 710065)
摘 要:网页数据的采集主要是指采集网页中相关的文本、数据信息以及链接信息,该文分析网页数据采集中基本方法和工作原理,通过系统设计实现网页数据采集,并实现基于R语言利用RCurl包进行网络爬虫。关键词:R语言 网络爬虫 数据采集中图分类号:TP391.3
文献标识码:A
文章编号:1672-3791(2016)12(a)-0035-02
表1 爬取结果
普桑配件车辆品牌 款式 车型
排量 手动/自动 版型
婚车出租价格上牌时间
里程 (万公里)
价
(万元) 原价 (万元) 雷克萨斯GS 2014款 GS250 2.5 自动 F-Sport 2013年12月 2.5 32.5 60.8 大众高尔夫 2012款 高尔夫6 1.4TSI 双离合 舒适版 2014年3月 3.6 10.7 16.4 马自达6 2014款
2
自动 经典版 2014年6月 6.9 9.5 15.2 大众夏朗 2012款 夏朗
2.0TSI 双离合 舒适版 2013年1月 4.4 21.5 39.6 本田雅阁 2016款 第九代雅阁 2 无极 舒适版 2016年7月 0.6 17 19.5 大众途安 2008款 途安 2
自动 5座智雅版 2010年7月 10.6 8 18.6 大众途观 2015款
1.8TSI 自动 两驱风尚版 2016年1月 3.6 18 23 现代索纳塔 2011款 第八代索纳塔 2 自动 GLX 豪华型 2012年8月 4.8 11 20.6 日产天籁 2013款 天籁 2 无极 XL 舒适版 2015年9月 3.6 15 20.2 丰田RAV4 2011款 RAV4欧拉多少钱
2.4 自动 至臻版 2011年5月 7.8 12.2 28.2 大众cc
成龙的车2010款
CC
2.0TSI
双离合
豪华版 2011年3月 6.4 15.3
30.2
发布评论