java正则表达式从Html文件中提取正文内容

html文件已经转换为txt文件，读写操作都已经实现了

举报该文章

相关建议 2015-04-14

就要看你的正文内容是在那个标签元素下面了，关于HTML页面的解析，推荐用xpath处理追问

xpath怎么处理？

追答

首先你要确定你的正文的位置，如在某个DIV下的所有文本是正文，那么你就可以用xpath定位到这个元素，抽取它的文本。
具体怎么定位，xpath有一套固定的语法规则能表示要抽取的规则，类似CSS的选择器的写法
你可以网上搜一下
java对xpath也有支持的，可以查看相关包的说明
http://www.jb51.net/article/37862.htm这是相关介绍你可以看看，希望对你有帮助

温馨提示：内容为网友见解，仅供参考

当前网址：https://11.t2y.org/zz/ppq84mv228vm72sf7p7.html

其他看法

无其他回答

相似回答

大家正在搜