Python基于豆瓣电影的可视化分析系统

Python基于⾖瓣电影的可视化分析系统

Python 基于⾖瓣电影的可视化分析系统

前⾔

这是本⼈这学期云计算课程⾃⼰构思设计的综合实验作品，看标题就知道是通过python实现的，且和⾖瓣电影密不可分。本⼈想法是做⼀个具有普适性的系统，不仅可以⽤于交作业，⽽且⾃⼰也可以从中获得便利。

详细请看接下来的介绍。

⼀、项⽬介绍

⼆、效果展⽰

1、爬⾍运⾏效果

2、针对某部电影的分析结果

千与千寻千と千尋の神隠し为例：

a. 不同时间影评⼈数

b. 影评推荐指数

c. 短评内容词云

3、随机多部电影的综合分析结果

调整过后的dashboard.html

这个静态⽹页是可以动态点击的，查看统计结果⾮常⽅便，不过整齐的样式需要⾃⼰布置这也是致命缺点，没法动态绑定数据。

三、项⽬分析

1、⾖瓣电影爬⾍的分析

⾖瓣电影官⽹虽然没有令⼈窒息的反爬操作，但是接⼝较为隐蔽，需要通过Fiddler抓包⼯具辅助，才

能到电影数据接⼝。编写爬⾍时使⽤xpath对⽹页数据进⾏提取，使⽤正则表达式过滤冗余⽂本数据并对⽂本进⾏清洗。爬⾍运⾏过程中要控制爬取速度，否则在运⾏时不会出现爬取问题，但经过⼀段时间后⾖瓣官⽹检测到本台主机IP的不正常请求，就会对IP进⾏封锁，阻⽌下⼀次⼤规模爬取。通过登录⾖瓣账号获得Cookie可以减缓这⼀点，并且可以访问到更多的数据量，不过并不能保证不会被封号。最后将爬取数据保存为csv⽂件，⽅便后期使⽤pandas等做数据处理。

2、针对某部电影的数据分析

大众

从不同时期影评⼈数、影评推荐指数、短评内容三个⾓度⼊⼿分析，不同时期的影评⼈数可以间接反映电影的热度，因为⼤多数⼈都是在电影刚上映观影完后写的影评；影评推荐指数可以直接看出观众对电影的喜好程度，对最热门的评论的汇总更能体现这部电影在⼤众中的影响⼒，⽽不是单靠官⽅给出的⾖瓣评分；短评词云可以体现电影的许多要素，⽐如演员、题材、主要情节剧情、观众评价，可以让影迷马上把握该电影脉搏，从⽽决定这部电影是否值得⼀看。

3、随机多部电影的综合数据分析

如果说针对某部电影的分析是让影迷决定是否看该部电影，那么随机多部电影的综合分析结果就是指引影迷去观看哪部电影。使⽤随机序号⽣成器在热门电影列表中任意选择电影，然后可视化出电影评分排⾏榜、电影Top20⾼分排⾏榜，电影上映时间线和电影类型分布，多⽅位直观俯瞰热门电影⾏情。

对于⼤众来说可以得知哪些电影近期更受欢迎，哪些电影评分⾼，电影在哪个时间段上映，从⽽发现⾃⼰喜欢的电影和属于⾃⼰的电影偏好。对于电影制作⽅，可以针对电影类型分布，保持哪些电影类型的产出，加⼤哪类电影的制作投⼊以顺应⼤众⼝味，甚⾄可以决策在什么时候上映哪些类型的电影能获得最⼤收益。

总结

⿇雀虽⼩五脏俱全，这个项⽬还有很多改进可扩展的地⽅，⽐如设计⼀个前端⽹页进⾏展⽰，提供更多的爬⾍选项定制爬取的电影数据，制作动态数据展⽰等。这期间我更体会到开发离不开官⽅⽂档的事实，有很多问题在官⽅⽂档⾥都可以得到解决。

参考⽹站

Python基于豆瓣电影的可视化分析系统

发布评论取消回复

最近发表

热门文章

标签列表