1、了解Python如何获取网页内容。
2、导入 urllib.request模块。
3、使用urllib.request.urlopen( )获取对象。
4、urllib.request.urlopen()获取的是一个网页的http.client.HTTPResponse对象。
5、若要打印http.client.HTTPResponse对象的内容,可以继续使用read()()方法。
先说下基本原理和过程
原理:就是将可以打开的网页(这里不限制为网站,本地网页文件也可以哦),加载到内存中,然后解析html,读取其中的文本内容或者储存到本地或者数据库中。
过程:
1、加载模块urllib,beautifulsoup。urllib提供网络服务解析,beautifullsoup提供对网页结构进行解析的功能。
2、加载网页
3、用beautifulsoup加载解析
下面给出实例:
import urllib.request