python如何读取网页中的数据

想读取远程指定网页中的数据，如-当前在线交流人总数。如何实现

举报该文章

相关建议 2015-12-29

用Beautiful Soup这类解析模块：

Beautiful Soup 是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)；

它提供简单又常用的导航(navigating)，搜索以及修改剖析树的操作；

用urllib或者urllib2(推荐)将页面的html代码下载后，用beautifulsoup解析该html；

然后用beautifulsoup的查找模块或者正则匹配将你想获得的内容找出来，就可以进行相关处理了，例如：

温馨提示：内容为网友见解，仅供参考

当前网址：https://22.t2y.org/zz/i0icfhx0h.html

其他看法

第1个回答 2012-06-06

不知道你说的网页是指的什么，如果你说的是我保存了一网页在你的电脑上，那就直接用open函数打开，read函数读就行了。

如果你说的是某个URL指向的网页内容，那就要用urllib2模块来抓取网页咯。本回答被网友采纳

第2个回答 2013-02-01

就是属于网页抓取，可参考：
如何用Python，C#等语言去实现抓取静态网页模拟登陆网站

里面有逻辑解释和代码。

(此处不能贴地址，可以通过google搜标题，即可找到帖子地址)

第3个回答 2012-06-13

用Beautiful Soup这类解析模块

Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。

用urllib或者urllib2(推荐)将页面的html代码下载后,用beautifulsoup解析该html

然后用beautifulsoup的查找模块或者正则匹配将你想获得的内容找出来,就可以进行相关处理了

例子:

from BeautifulSoup import BeautifulSoup

html = '<html><head><title>test</title></head><body><p>test body</p></body></html>'

soup = BeautifulSoup(html)

soup.contents[0].name
# u'html'

soup.comtents[0].contents[0].name
# u'head'

head = soup.comtents[0].contents[0]

head.parent.name
# u'html'

head.next
# u'<title>test</title>

剩下的自己看文档吧

参考资料：http://wenku.baidu.com/view/c4ad3afa770bf78a6529548f.html

本回答被提问者采纳

如何抓取网页上的数据(如何使用Python进行网页数据抓取)
要使用Python进行网页数据抓取，首先需要安装Python解释器。可以从Python官方网站下载并安装最新的Python版本。安装完成后，还需要安装一些相关的Python库，如requests、beautifulsoup、selenium等。可以使用pip命令来安装这些库，例如在命令行中输入以下命令来安装requests库：```pipinstallrequests ```二、使用reques...

如何爬取网页数据
2. 使用网页抓取工具网页抓取工具能自动化爬取网页数据，常见的工具有WebHarvy、Octoparse等。这些工具通过简单配置即可自动化爬取，并将数据导出为Excel、CSV等格式，便于后续处理和分析。3. 使用API接口某些网站提供API接口以便获取数据。API接口提供了一种标准化的数据交换方式，便于获取格式规范的数据。...

如何爬取网页数据
3. 使用API接口一些网站提供了API接口，可以通过API接口获取网页数据。API接口是一种标准化的数据交换方式，可以方便地获取网页数据，并且数据格式也比较规范。使用API接口获取网页数据需要先了解API接口的使用方法和数据格式，然后通过编程语言调用API接口获取数据。4. 使用数据采集软件数据采集软件是一种可...

如何用python爬取网站数据?
1.这里假设我们爬取的是债券数据，主要包括年利率、借款标题、期限、金额和进度这5个字段信息，截图如下：打开网页源码中，可以发现数据不在网页源码中，按F12抓包分析时，才发现在一个json文件中，如下：2.获取到json文件的url后，我们就可以爬取对应数据了，这里使用的包与上面类似，因为是json文件，所...

python如何爬**页,详细教程,小菜鸟一个?
爬取动态网页数据有两种主要方法：一是分析数据接口，找到数据的藏匿之处，然后请求接口的数据；二是使用 Selenium 模拟浏览器点击方式获取数据。本文将通过一个简单的案例，介绍爬取动态网页数据的基本思路和步骤，以 Bilibili 视频评论为例，具体展示如何通过 Python 爬取动态网页的数据。动态网页爬取的基本...

如何爬取网页表格数据?
Python爬取网页表格数据的方法有多种，其中一种简单直接的方式是利用pandas的read_html函数。使用read_html函数，仅需几行代码即可实现对网页表格数据的读取和处理。函数首先从指定的url获取HTML内容，然后通过正则表达式等方法识别表格结构，并将表格数据转化为DataFrame格式。值得注意的是，read_html函数会读取...

零基础用爬虫爬取网页内容(详细步骤+原理)
6、预览数据：点击 refresh 预览爬取结果，检查数据是否正确。如有问题，返回选择器调整设置。 7、导出数据：点击 Export date as CSV，将数据以 CSV 格式下载。Web Scraper 的使用步骤简单明了，适合初学者快速上手，尤其对于数据量不大，页面布局规则的网页。然而，不同网站的风格、元素布局、需求差异...

Pandas也能爬虫?爬取网页数据并存储至本地数据库
3. read_sql数据库查询：利用Python从数据库查询数据，通过pymysql库建立连接，使用read_sql命令读取数据库数据。read_sql函数中的sql参数用于执行SQL语法查询数据，查询结果可直接通过代码获取。总结，通过read_html与pymysql库结合，实现了网页数据的抓取与数据库的存储，再利用read_sql实现数据库数据的查询...

python怎么爬取数据
请求 url主要是为了获取我们所需求的网址的源码，便于我们获取数据四、获取响应获取响应是十分重要的，我们只有获取了响应才可以对网站的内容进行提取，必要的时候我们需要通过登录网址来获取cookie 来进行模拟登录操作五、获取源码中的指定的数据这就是我们所说的需求的数据内容，...

如何用python把网页上的文本内容保存下来
1、了解Python如何获取网页内容。2、导入 urllib.request模块。3、使用urllib.request.urlopen( )获取对象。4、urllib.request.urlopen()获取的是一个网页的http.client.HTTPResponse对象。5、若要打印http.client.HTTPResponse对象的内容，可以继续使用read()方法。

相似回答

大家正在搜