Python 基于⾖瓣电影的可视化分析系统
前⾔
这是本⼈这学期云计算课程⾃⼰构思设计的综合实验作品,看标题就知道是通过python实现的,且和⾖瓣电影密不可分。本⼈想法是做⼀个具有普适性的系统,不仅可以⽤于交作业,⽽且⾃⼰也可以从中获得便利。
详细请看接下来的介绍。
⼀、项⽬介绍
⼆、效果展⽰
1、 爬⾍运⾏效果
2、 针对某部电影的分析结果
千与千寻 千と千尋の神隠し为例:
a. 不同时间影评⼈数
b. 影评推荐指数
c. 短评内容词云
3、 随机多部电影的综合分析结果
调整过后的dashboard.html
这个静态⽹页是可以动态点击的,查看统计结果⾮常⽅便,不过整齐的样式需要⾃⼰布置这也是致命缺点,没法动态绑定数据。
三、项⽬分析
1、 ⾖瓣电影爬⾍的分析
⾖瓣电影官⽹虽然没有令⼈窒息的反爬操作,但是接⼝较为隐蔽,需要通过Fiddler抓包⼯具辅助,才
能到电影数据接⼝。编写爬⾍时使⽤xpath对⽹页数据进⾏提取,使⽤正则表达式过滤冗余⽂本数据并对⽂本进⾏清洗。爬⾍运⾏过程中要控制爬取速度,否则在运⾏时不会出现爬取问题,但经过⼀段时间后⾖瓣官⽹检测到本台主机IP的不正常请求,就会对IP进⾏封锁,阻⽌下⼀次⼤规模爬取。通过登录⾖瓣账号获得Cookie可以减缓这⼀点,并且可以访问到更多的数据量,不过并不能保证不会被封号。最后将爬取数据保存为csv⽂件,⽅便后期使⽤pandas等做数据处理。
2、 针对某部电影的数据分析
大众从不同时期影评⼈数、影评推荐指数、短评内容三个⾓度⼊⼿分析,不同时期的影评⼈数可以间接反映电影的热度,因为⼤多数⼈都是在电影刚上映观影完后写的影评;影评推荐指数可以直接看出观众对电影的喜好程度,对最热门的评论的汇总更能体现这部电影在⼤众中的影响⼒,⽽不是单靠官⽅给出的⾖瓣评分;短评词云可以体现电影的许多要素,⽐如演员、题材、主要情节剧情、观众评价,可以让影迷马上把握该电影脉搏,从⽽决定这部电影是否值得⼀看。
3、 随机多部电影的综合数据分析
如果说针对某部电影的分析是让影迷决定是否看该部电影,那么随机多部电影的综合分析结果就是指引影迷去观看哪部电影。使⽤随机序号⽣成器在热门电影列表中任意选择电影,然后可视化出电影评分排⾏榜、电影Top20⾼分排⾏榜,电影上映时间线和电影类型分布,多⽅位直观俯瞰热门电影⾏情。
对于⼤众来说可以得知哪些电影近期更受欢迎,哪些电影评分⾼,电影在哪个时间段上映,从⽽发现⾃⼰喜欢的电影和属于⾃⼰的电影偏好。对于电影制作⽅,可以针对电影类型分布,保持哪些电影类型的产出,加⼤哪类电影的制作投⼊以顺应⼤众⼝味,甚⾄可以决策在什么时候上映哪些类型的电影能获得最⼤收益。
总结
⿇雀虽⼩五脏俱全,这个项⽬还有很多改进可扩展的地⽅,⽐如设计⼀个前端⽹页进⾏展⽰,提供更多的爬⾍选项定制爬取的电影数据,制作动态数据展⽰等。这期间我更体会到开发离不开官⽅⽂档的事实,有很多问题在官⽅⽂档⾥都可以得到解决。
参考⽹站
发布评论