java正则表达式从Html文件中提取正文内容

html文件已经转换为txt文件,读写操作都已经实现了

就要看你的正文内容是在那个标签元素下面了,关于HTML页面的解析,推荐用xpath处理追问

xpath怎么处理?

追答

首先你要确定你的正文的位置,如在某个DIV下的所有文本是正文,那么你就可以用xpath定位到这个元素,抽取它的文本。
具体怎么定位,xpath有一套固定的语法规则能表示要抽取的规则,类似CSS的选择器的写法
你可以网上搜一下
java对xpath也有支持的,可以查看相关包的说明
http://www.jb51.net/article/37862.htm这是相关介绍你可以看看,希望对你有帮助

温馨提示:内容为网友见解,仅供参考
无其他回答
相似回答