怎么用java程序抓取网页源代码

如题所述

第1个回答  2017-03-08

用httpclient吧,网上很多例子的。下面有一个你看看。

import org.apache.http.HttpResponse;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.util.EntityUtils;
    
    public String getWeChatUserInfo(String token,String openid){
        String urlNameString = "https://api.weixin.qq.com/sns/userinfo?access_token=TOKEN&openid=OPENID";
        urlNameString=urlNameString.replace("TOKEN", token);
        urlNameString=urlNameString.replace("OPENID",openid);
        String result="";
          try {
                // 根据地址获取请求
                HttpGet request = new HttpGet(urlNameString);//这里发送get请求
                // 获取当前客户端对象
                HttpClient httpClient = new DefaultHttpClient();
                // 通过请求对象获取响应对象
                HttpResponse response = httpClient.execute(request);
                
                // 判断网络连接状态码是否正常(0--200都数正常)
                if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
                    result= EntityUtils.toString(response.getEntity(),"utf-8");
                } 
            } catch (Exception e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            }
        return result;
        //....result是用户信息,站内业务以及具体的json转换这里也不写了...
    }

如何在java中查找文件的源代码?
工具如何查找源代码1、首先打开电脑的ie浏览器进去,如下图所示。进入ie浏览器首页后,点击查看,如下图所示。在查看菜单下选择源,如下图所示。最后打开源就看到本网页的源代码了,在最下方,如下图所示。2、第二种方法就是根据浏览器状态栏或工具栏中的点击“查看”然后就用一项“查看源代码”,点...

怎么用java代码爬取网页中视频的源地址,不
第一种方式:1、用HttpClient模拟请求html 获取html源码;2、用jsoup方法抓取解析网页数据 第二种方式:1、用HttpClient模拟请求html 获取html源码;2、用正则抓取解析网页数据 有很多种方式能够获取html源码,源码获取到了数据解析就很容易了。你可以百度一下有很多 ...

如何使用java查看html文件的源代码
如果是只读取HTML文件的话,可以直接用FileReader就可以了。如果是通过访问URL获取HTML代码的话可以使用HttpClient。

java 获取网页源代码---有效防止乱码
1.HttpURLConnection.getContentType();直接读取,效率高,但有很多时候读不到。只是text\/html就完事了,没有charset.2.使用第三方的HttpClient,执行效率较高。但读取网页头header也只适用部分站,很多网站服务段不设置,结果就读成了null.3.最没有效率的判断方法就是使用inputStreamReader先把正页的html...

如何用java中HTMLPraser提取网页源代码中的某些链接
使用正则表达式去匹配就行了。第一步:下载你需要分析的网页的源码 第二步:在程序中使用正则表达式去匹配源码,保存匹配成功的链接地址就行。可以在网上搜一下匹配网址的正则表达式

网页源代码提取,用java也行,用perl也行
不知道你是不是要实现抓取别人的页面进行输出……是的话,你可以试用下面的代码。本人不会Perl,就用java的servlet实现了。希望能对你有帮助 import java.io.IOException;import java.io.PrintWriter;import java.net.URL;import javax.servlet.ServletException;import javax.servlet.http.HttpServlet;import ...

我想用java从页面源代码中取出网页链接和标注,再用于其他程序中
使用 Jsoup这个html工具库。Document doc = Jsoup.parse(...);Elements elements = doc.select("a[href]");for(Element node : elements){ String href = node.attr("href");String text = node.text();}

java 网络爬虫怎么实现
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。对于垂直搜索来说,聚焦爬虫,即有针对性地爬取特定主题网页的爬虫,更为适合。以下是一个使用java实现的简单爬虫核心代码:public void crawl() ...

【教你写爬虫】用Java爬虫爬取百度搜索结果!可爬10w+条!
爬虫的核心步骤包括:1)初始化浏览器并打开百度搜索页面;2)模拟用户输入搜索关键词并点击搜索;3)使用代码解析页面,获取每个搜索结果的详细信息;4)重复此过程,处理多个关键词和额外的逻辑,如随机等待、数据保存等。通过这样的通用方法,我们实现了高效的数据抓取。总结来说,爬虫的核心就是模仿人类...

如何查看源代码
1. 在浏览器中查看网页源代码:在大多数现代浏览器中,都提供了查看网页源代码的功能。可以使用快捷键Ctrl+U(在Windows系统中)或Command+Option+U(在Mac系统中)来打开网页的源代码视图。也可以通过右键点击页面上的任何位置,然后选择“查看页面源代码”或类似选项来打开源代码视图。2. 使用开发者...

相似回答
大家正在搜