python爬虫怎么不等页面全加载完

如题所述

举报该文章

相关建议 2017-10-02

最关键是先要区分：静态网页还是动态网页
如果是静态html，get到的内容就是全部内容了，而且下一页会对应另外一个网址，接下来get它就行了。
绝大多数网页会有一些动态特性，比如，下一页网址不是一个独立的网址，简单点的可能是用onclick实现的，那么就不能利用网址直接get了，在python环境下，有很多driver，可以很好地模拟浏览器的行为
如果网页内容也是动态加载的，而且随着用户行为不同而不断变化，那么光get一个html document是不行的，此时就需要一个判断机制，什么时候网页上的内容显示全了？可以执行提取动作了？简单的实现就是等一个确定的时间；复杂一点的可以监控窗口事件，定一个判断标准，到时候就启动提取。要防止漏采，又要尽可能避免无谓的等待

温馨提示：内容为网友见解，仅供参考

当前网址：https://11.t2y.org/zz/747p2mvvqm8s7vmpfp.html

其他看法

无其他回答

相似回答

大家正在搜