最简单可以用urllib,python2.x和python3.x的用法不同,以python2.x为例:
复杂些可以用requests库,支持各种请求类型,支持cookies,header等
再复杂些的可以用selenium,支持抓取javascript产生的文本
我设计了简单的爬虫闯关网站 www.heibanke.com/lesson/crawler_ex00/
新手如果能自己把三关闯过,相信一定会有所收获。
题解在课程里有提到http://study.163.com/course/courseMain.htm?courseId=1000035