⽹络爬⾍都能⼲什么?有哪些⽹站的数据可以爬取?
摩托车前减震油1、⽹络爬⾍都能⼲什么
@冰蓝
jeep指南者2012款之前在北京买房,谁想房价开始疯长,链家的房价等数据分析只给了⼀⼩部分,远远不能满⾜⾃⼰的需求。于是晚上花了⼏个⼩时的时间写了个爬⾍,爬下了北京所有的⼩区信息及北京所有⼩区的所有历史成交记录。
@陈乐
上次发现Android QQ和iOS QQ可以显⽰⽹络状态(2G/WiFi)之后,突然想到,这样⼦好像可以监视某⼈的出⾏和作息规律。简单的来说,在家⾥或者⼯作的地⽅,⼀般是有WiFi的,然后出门了,WiFi就断掉了。如果监测频率⾜够频繁,那么结合⼀定的推理,可以⼤致推测出⼀个⼈的⾏动。如果长期监视,那么可以⼤致推出⼀个⼈的作息时间。
因为只有Android QQ和iOS QQ有这个功能,所以要得到⼀个⼈的⽹络状态⽐较⿇烦。我的做法是跑 Android 模拟器。然后⽤按键精灵模拟,并把⽹络状态截图,⽤ curl post到服务器上。服务器会把每次发送的时间、截图保存下来。因为是⽤程序截图的,所以只要⽹络状态是⼀样的,那么截图就是⼀样的,
这样服务器就只会保存2~3张图⽚⽽已,其余的发现是相同的图⽚,数据库做个标记就好了。然后⼈⼯做OCR,还是注意到只有2~3张图⽚,所以⼯作量很少。
得到数据后,要做各种统计就可以⾃⼰搞了……
@森羴
在⽤Python写⽹页爬⾍之前,我只⽤来写过了⼀个驾校约车的脚本,让当时的我不惧上万的学车同僚,在约车环节没有输在起跑线上。
接着那段时间,我⼥朋友的领导每天下班都会下任务,要收集100条有招聘需求的信息,第⼆天检查。看到她熬夜百度+复制粘贴到半夜,⼼疼死了。
想到了某个⽜⼈说:⼀切重复性的⼯作都可以⽤程序来完成。于是偷偷花了些时间研究了下她经常查的某些同类业务⽹站的页⾯数据,培育了这只爬⾍。主要技能就是爬这些⽹站的招聘公司信息及联系⽅式,保存到Excel中。
在我将战⽃成果----1000多个客户资料的Excel表格发给她的时候,先惊喜,后审问,再感慨!依稀记得那天她发了⼀条朋友圈,内容是:“有个程序员男朋友,感觉好幸福啊!!”成就感⾛直线啊,都能让她感到幸福,你说这只爬⾍是不是做了很酷很有趣的事情呢?
@柳易寒
我⽤爬⾍爬了我爱⽩菜⽹、超值分享汇、发现值得买、惠惠购物、今⽇聚超值、留住你、买⼿党、没得⽐、慢慢买、⽜杂⽹、买个便宜货、什么值得买、天上掉馅饼、⼀分⽹、折800值得买、值值值等⽹站的折扣信息。
标致rcz敞篷
这些⽹站都是提供的⼀些及时的、性价⽐较⾼的商品,很多时候要⼀个⼀个⽹站的看(重度⽤户),很容易就会错过⼀些很划算的商品。
@⼩⽩
⼤⼆学⽣⼀枚,前段时间中期考试,成绩⼀直不出来,⼜不想每次都登录,突然就像⽤以下所学的东西来⼲点事情。
说⼲就⼲,花了我将近4个⼩时完成成绩提醒功能。主要是⽤Python定时抓取数据(定时⽤Ubuntu的crontab),分析数据是否变化,然后发送
短信。其实⼤部分时间是花在分析学校模拟登陆那⼀块了,毕竟要提取各种值,还有url重定向,本来就才学Python,对⼀些东西也不是很熟悉。运⾏起来之后还是效果还不错,10分钟抓⼀次,第⼀时间知道了我的概率论。。。
@顾旻玮
在学校的时候做过⼀个项⽬,通过爬微博的⽂字,分析国内各个地区的⽤户收听虾⽶的热度和最受欢迎的歌⼿。当然也没有⽤什么很复杂的技术,就是写基本的TF-IDF。
做完的时候觉得⾃⼰好有想法啊,能实现这么有意思的东西。后来发现早就有公司做过了。当然别⼈做的是美国版的。
于是现在,我就在这家公司⼯作。
极氪x@晨晨
朋友交易了⼀套房⼦,⼿机号流落到了各种中介⼿⾥,隔⼏天就有中介电话骚扰,不胜其烦。每接⼀个电话都加⿊名单,但还是有新号码打过来,so……问我咋办!
v6菱仕Android ⼿机的拦截倒不是问题,但需要房产经纪⼈的号码数据库,就只能去⽹上爬了!
挑战者多少钱
各个房产站的⼴州站点加上58什么的,⼀个多⼩时爬了快两万个号码,去重之后还有⼀万五千多……
⼀时兴起,⼜去爬了深圳、北京和上海,现在都不知道拿这些号码去⼲嘛了……
PS:貌似活跃房产经纪的数量能反应市场活跃度?
PS:我觉得我可以把全国城市的都爬下来。
@孟德超
⾮计算机系。所以我做的⽐起其他⼈来说要简单的多,但是却解决了⼀些很实⽤的问题,也让我认识到各⾏各业的⼈都需要学⼀点编程。
我⼀个同学做数学建模,需要57个城市两两之间的距离。他们本来想在百度查,可是57*56/2=1596,也就是说他们光查数据就要百度1596次。刚好我那个时候接触了⼀点爬⾍,就到⼀个可以查询距离的⽹站,⼤概写了⼏⼗⾏代码,两分钟就解决问题了。
@余⽣梦
说个简单实⽤的例⼦吧。昨晚突然发现我在某培训⽹站的的会员马上就要过期了,于是赶紧写了个爬⾍,把没看完的教学视频全下载下来了……
@ animalize
⽤爬⾍技术做了个个⼈信息收集系统,部署在卡⽚式电脑(如树莓派、Cubieboard)上。
2、有哪些⽹站值得⽤python爬⾍获取很有价值的数据
1、知乎沧海横流,看⾏业起伏,抓取并汇总所有的答案,⽅便⼤家阅读,出2015年最热门和最衰落的⾏业。
2、汽车之家⼤数据画像:宝马车主究竟有多任性?利⽤论坛发⾔的抓取以及NLP,对各种车型的车主做画像。
3、天猫、京东、淘宝等电商⽹站超越咨询顾问的算⼒,在⽤户理解和维护,抓取各⼤电商的评论及销量数据,对各种商品(颗粒度可到款式)沿时间序列的销量以及⽤户的消费场景进⾏分析。甚⾄还可以根据⽤户评价做情感分析,实时监控产品在消费者⼼⽬中的形象,对新发布的产品及时监控,以便调整策略。
4、58同城的房产、安居客、Q房⽹、搜房等房产⽹站下半年深圳房价将如何发展 ,抓取房产买卖及租售信息,对热热闹闹的房价问题进⾏分析。
5、⼤众点评、美团⽹等餐饮及消费类⽹站黄焖鸡⽶饭是怎么⽕起来的?抓取各种店⾯的开业情况以及⽤户消费和评价,了解周边变化的⼝味,所谓是“⾆尖上的爬⾍”。以及各种变化的⼝味,⽐如:啤酒在衰退,重庆⼩⾯在崛起。
6、58同城等分类信息⽹站花10万买贡茶配⽅,贵不贵?抓取招商加盟的数据,对定价进⾏分析,帮助⽹友解惑。
7、拉勾⽹、中华英才⽹等招聘⽹站互联⽹⾏业哪个职位⽐较有前途?抓取各类职位信息,分析最热门的职位以及薪⽔。
8、挂号⽹等医疗信息⽹站如何评价挂号⽹? 抓取医⽣信息并于宏观情况进⾏交叉对⽐。
9、应⽤宝等App市场你⽤ Python 做过什么有趣的数据挖掘/分析项⽬? 对各个App的发展情况进⾏跟踪及预测。(顺便吹⼀下⽜,我们这个榜单很早就发现⼩红书App的快速增长趋势以及在年轻⼈中的极佳⼝碑)
10、携程、去哪⼉及12306等交通出⾏类⽹站,对航班及⾼铁等信息进⾏抓取,能从⼀个侧⾯反映经济是否正在⾛⼊下⾏通道。
11、雪球等财经类⽹站抓取雪球KOL或者⾼回报⽤户的⾏为,出推荐股票
12、58同城⼆⼿车、易车等汽车类⽹站⼀年当中买车的最佳时间为何时?什么品牌或者型号的⼆⼿车残值⾼?更保值?反之,什么类型的贬值较快? - ⼆⼿车,出最佳的买车时间以及最保值的汽车。
13、神州租车、⼀嗨租车等租车类⽹站抓取它们列举出来的租车信息,长期跟踪租车价格及数量等信息
14、各类信托⽹站通过抓取信托的数据,了解信托项⽬的类型及规模
参考资料: