html文件已经转换为txt文件,读写操作都已经实现了
xpath怎么处理?
首先你要确定你的正文的位置,如在某个DIV下的所有文本是正文,那么你就可以用xpath定位到这个元素,抽取它的文本。具体怎么定位,xpath有一套固定的语法规则能表示要抽取的规则,类似CSS的选择器的写法你可以网上搜一下java对xpath也有支持的,可以查看相关包的说明http://www.jb51.net/article/37862.htm这是相关介绍你可以看看,希望对你有帮助