java 抓取内容 如何提取html 里面 相同 标签 里面 的内容

<tr>
<td bgcolor="#FFFFFF" style="padding-left:8px;margin:0"><a href="../action/GetArticleView1.do?id=205943&flag=1" target="_blank" class="a_left2">浙江省国家税务局关于部分行业农产品增值税进项税额核定扣除实行全省统一扣除标准的公告</a></td>
<td align="center" bgcolor="#FFFFFF"></td>
<td bgcolor="#FFFFFF" style="padding-left:8px;margin:0 ">〔〕号</td>
</tr>

<tr>
<td bgcolor="#FFFFFF" style="padding-left:8px;margin:0"><a href="../action/GetArticleView1.do?id=205882&flag=1" target="_blank" class="a_left2">青岛市地方税务局关于启用纳税申报表[简易申报]的通知</a></td>
<td align="center" bgcolor="#FFFFFF"></td>
<td bgcolor="#FFFFFF" style="padding-left:8px;margin:0 ">〔2010〕163号</td>
</tr>

<tr>
<td bgcolor="#FFFFFF" style="padding-left:8px;margin:0"><a href="../action/GetArticleView1.do?id=157425&flag=1" target="_blank" class="a_left2">吉林省地方税务局 吉林省国家税务局关于跨地区经营建筑企业所得税征收管理有关问题</a></td>
<td align="center" bgcolor="#FFFFFF"></td>
<td bgcolor="#FFFFFF" style="padding-left:8px;margin:0 ">公告2011年第5号</td>
</tr>

<tr>
<td bgcolor="#FFFFFF" style="padding-left:8px;margin:0"><a href="../action/GetArticleView1.do?id=112668&flag=1" target="_blank" class="a_left2">福建省国家税务局关于英冠达(福建)电子科技有限公司按月计算办理"免、抵、退"税的批复</a></td>
<td align="center" bgcolor="#FFFFFF"></td>
<td bgcolor="#FFFFFF" style="padding-left:8px;margin:0 ">闽国税函〔2011〕63号</td>
</tr>

<tr>
<td bgcolor="#FFFFFF" style="padding-left:8px;margin:0"><a href="../action/GetArticleView1.do?id=204666&flag=1" target="_blank" class="a_left2">广西壮族自治区人民政府关于车船税征收的公告</a></td>
<td align="center" bgcolor="#FFFFFF"></td>
<td bgcolor="#FFFFFF" style="padding-left:8px;margin:0 ">〔〕号</td>
</tr>

<tr>
<td bgcolor="#FFFFFF" style="padding-left:8px;margin:0"><a href="../action/GetArticleView1.do?id=204665&flag=1" target="_blank" class="a_left2">财政部 国家税务总局关于证券机构技术和制度准备完成后个人转让上市公司限售股有关个人所得税问题的通知</a></td>
<td align="center" bgcolor="#FFFFFF"></td>
<td bgcolor="#FFFFFF" style="padding-left:8px;margin:0 ">财税〔2011〕108号</td>
</tr>

<tr>
<td bgcolor="#FFFFFF" style="padding-left:8px;margin:0"><a href="../action/GetArticleView1.do?id=204664&flag=1" target="_blank" class="a_left2">财政部 国家税务总局关于交通运输业和部分现代服务业营业税改征增值税试点若干税收政策的通知</a></td>
<td align="center" bgcolor="#FFFFFF"></td>
<td bgcolor="#FFFFFF" style="padding-left:8px;margin:0 ">财税〔2011〕133号</td>
</tr>
浙江省国家税务局关于部分行业农产品增值税进项税额核定扣除实行全省统一扣除标准的公告
〔〕号

青岛市地方税务局关于启用纳税申报表[简易申报]的通知</a></td>
〔2010〕163号

吉林省地方税务局 吉林省国家税务局关于跨地区经营建筑企业所得税征收管理有关问题
公告2011年第5号

.财政部 国家税务总局关于证券机构技术和制度准备完成后个人转让上市公司限售股有关个人所得税问题的通知
财税〔2011〕108号

财政部 国家税务总局关于交通运输业和部分现代服务业营业税改征增值税试点若干税收政策的通知财税
〔2011〕133号
之前我用的HttpClient吧整个网页给提取出来,
当我提取这些有相同标签的时候的时候,就提取不出来
请高手帮帮忙!!!!!!!
谢谢!!!

第1个回答  2012-09-15

用jquery

 

<script type="text/javascript" src="jquery-1.8.1.js"></script>
 <script type="text/javascript">
  function f1(){
   var txt = $(".a_left2").text();
   $("div").html(txt);
  }
  $(f1);
 </script>

 

<%@ page language="java" contentType="text/html; charset=UTF-8"
    pageEncoding="UTF-8"%>
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd";>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>Insert title here</title>
 <script type="text/javascript" src="jquery-1.8.1.js"></script>
 <script type="text/javascript">
  function f1(){
   var txt = $(".a_left2").text();
   $("div").html(txt);
  }
  $(f1);
 </script>
</head>
<body>
<div></div>
 <table>
  <tr>
            <td bgcolor="#FFFFFF" style="padding-left:8px;margin:0"><a href="../action/GetArticleView1.do?id=205943&flag=1" target="_blank" class="a_left2">浙江省国家税务局关于部分行业农产品增值税进项税额核定扣除实行全省统一扣除标准的公告</a></td>
            <td align="center" bgcolor="#FFFFFF"></td>
            <td bgcolor="#FFFFFF" style="padding-left:8px;margin:0 ">〔〕号</td>
          </tr>

 
          <tr>
            <td bgcolor="#FFFFFF" style="padding-left:8px;margin:0"><a href="../action/GetArticleView1.do?id=205882&flag=1" target="_blank" class="a_left2">青岛市地方税务局关于启用纳税申报表[简易申报]的通知</a></td>
            <td align="center" bgcolor="#FFFFFF"></td>
            <td bgcolor="#FFFFFF" style="padding-left:8px;margin:0 ">〔2010〕163号</td>
          </tr>

 
          <tr>
            <td bgcolor="#FFFFFF" style="padding-left:8px;margin:0"><a href="../action/GetArticleView1.do?id=157425&flag=1" target="_blank" class="a_left2">吉林省地方税务局 吉林省国家税务局关于跨地区经营建筑企业所得税征收管理有关问题</a></td>
            <td align="center" bgcolor="#FFFFFF"></td>
            <td bgcolor="#FFFFFF" style="padding-left:8px;margin:0 ">公告2011年第5号</td>
          </tr>

 
          <tr>
            <td bgcolor="#FFFFFF" style="padding-left:8px;margin:0"><a href="../action/GetArticleView1.do?id=112668&flag=1" target="_blank" class="a_left2">福建省国家税务局关于英冠达(福建)电子科技有限公司按月计算办理"免、抵、退"税的批复</a></td>
            <td align="center" bgcolor="#FFFFFF"></td>
            <td bgcolor="#FFFFFF" style="padding-left:8px;margin:0 ">闽国税函〔2011〕63号</td>
          </tr>

 
          <tr>
            <td bgcolor="#FFFFFF" style="padding-left:8px;margin:0"><a href="../action/GetArticleView1.do?id=204666&flag=1" target="_blank" class="a_left2">广西壮族自治区人民政府关于车船税征收的公告</a></td>
            <td align="center" bgcolor="#FFFFFF"></td>
            <td bgcolor="#FFFFFF" style="padding-left:8px;margin:0 ">〔〕号</td>
          </tr>

 
          <tr>
            <td bgcolor="#FFFFFF" style="padding-left:8px;margin:0"><a href="../action/GetArticleView1.do?id=204665&flag=1" target="_blank" class="a_left2">财政部 国家税务总局关于证券机构技术和制度准备完成后个人转让上市公司限售股有关个人所得税问题的通知</a></td>
            <td align="center" bgcolor="#FFFFFF"></td>
            <td bgcolor="#FFFFFF" style="padding-left:8px;margin:0 ">财税〔2011〕108号</td>
          </tr>

 
          <tr>
            <td bgcolor="#FFFFFF" style="padding-left:8px;margin:0"><a href="../action/GetArticleView1.do?id=204664&flag=1" target="_blank" class="a_left2">财政部 国家税务总局关于交通运输业和部分现代服务业营业税改征增值税试点若干税收政策的通知</a></td>
            <td align="center" bgcolor="#FFFFFF"></td>
            <td bgcolor="#FFFFFF" style="padding-left:8px;margin:0 ">财税〔2011〕133号</td>
          </tr>
 </table>
</body>
</html>

第2个回答  2012-09-16
用jsoup框架 ,你可以百度搜索一下 ,这个框架很好用直接用select选择器来选择HTML里面的节点,比如<a class="title">hello</a> 你可以通过select(".title")来得到hello这个字符串,当然这只是其中一种方法,还有很多方法,具体怎么用请看jsoup的官方文档。纯手打,采纳我吧追问

我这是要在后台处理,用java代码怎么处理,等取出来是要存在数据库的?

追答

这个就是用在java上的,你百度一下jsoup的例子吧。

...java爬虫得到网页以后怎么提取里面自己需要的内容呢?如果会代码请您...
根据java网络编程相关的内容,使用jdk提供的相关类可以得到url对应网页的html页面代码。针对得到的html代码,通过使用正则表达式即可得到我们想要的内容。比如,我们如果想得到一个网页上所有包括“java”关键字的文本内容,就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容,只得到...

如何使用java提取html页面中script标签里面的值
alert(a);\/\/a的值就是选取的元素的值。})

请教如何使用java从html内容中提取指定信息
File input = new File("\/tmp\/input.html");Document doc = Jsoup.parse(input, "UTF-8", "IP");看看这个代码,调用 doc.text() 方法即可。

java 如何利用正则表达式只保留html里面的<p><\/p>标签里面的内容
group(1)为正文内容。输出时加上\\n就行了 import java.util.regex.*;public class Test{ public static void main(String[] args){ String str="<p style=\\"font-size:1.3em;font-weight:bold\\">No page with that title exists.<\/p> ";String regex="<p.*?>(.*?)<\/p> ";Pattern...

java怎么获取html中的文本域中的内容
name="name" ><input type="button" value="确定"> 定义一个变量通过request.getParameter("name")取得,其中name 是标签名称 另外在javascript中可以 先在标签里加上一个id 如<input type="text" name="name" id="name"> 再通过document.getElementById("name").value 取得标签中的值 ...

java如何取到如下html中的div内的字符串“需要取的内容”
很多种方法……document.getElementByID("aa")aa.innerHTML就是你要的了 可以用全局document,给每个div 设置id号,或者名字 然后通过全局document访问ID就可以取到内容了,如果在表里面,也可以给表设个ID或者直接某行某列

java语言获取网页标签中的内容
新浪的那个天气的值是通过js动态加载的,原始html页面是<div id="SI_Weather_Wrap" class="now-wea-wrap clearfix"><\/div> 。而jsoup只是对html进行解析,所以是找不到js动态生成的哪些信息的。

java爬虫抓取指定数据
比如,我们如果想得到一个网页上所有包括“java”关键字的文本内容,就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容,只得到包括“java”这个关键字的内容的效果。从网页上爬取图片的流程和爬取内容的流程基本相同,但是爬取图片的步骤会多一步。需要先用img标签的正则表达式...

java得到请求来的页面HTML
还可以用专门获取网页的JAR包,好像是jsoap?上面的代码没有考虑转码的问题。如果是中文可能出现乱码,注意要统一编码格式。--- 修改了一下servlet的doPost方法,解决编码问题。我的页面是utf-8编码。String indexUrl = request.getParameter("indexUrl");URL url = new URL(indexUrl);InputStream is...

java根据url抓取html页面内容,怎么解析chunked 方式
先获取页面 String html = getContent(url, Constants.ENCODING_UTF8);解析页面 Document doc=Jsoup.parse(html);然后你获取相应的标签String tag =doc.getElementsByTag("title").first().text();如果标签很多不一样你就得判断了,还有看看有什么相同的地方吧,我抓取网页数据的时候最烦的就是格式不...

相似回答