⼤众点评反爬⾍机制,⽤户评论⾃编码替换
本⼈是研究推荐系统的,最近在看到⼀篇⽂章Exploiting Ranking Consistency Principle in Representation Learning for Location Promotion觉得挺有意思的,想深⼊了解⼀下,
然后想着从⼤众点评上爬点数据,于是就随⼿打开⼤众点评,点开评论,打开源码,研究⼀下爬⾍策略,这才发现,现在⼤众点评除了在代理IP上下功夫反爬⾍外,在源码上也
做⽂章了,具体如下:
大众论坛⽹页源码:
这<span class="fr-DMrt"></span>店我<span class="fr-Ky0H"></span><span class="fr-QmtS"></span><span class="fr-SHzo"></span><span class="fr-mUfe"></span>烈<span class="fr-mAqU"></span>call,<span class="fr-SHzo"截取其中⼀句:
这<span class="fr-DMrt"></span>店我<span class="fr-Ky0H"></span><span class="fr-QmtS"></span><span class="fr-SHzo"></span><span class="fr-mUfe"></span>烈<span class="fr-mAqU"></span>call,
可以发现其中有些字被⽹页元素替换了,加载到前端的时候再显⽰原始评论,可以说很灵性了。