请教一个正则表达式：获取html中某一段内容中的所有A标签

比如下面这段html ，里面有很多div,每个div中都有很多a标签和其它标签，请写一个正则，匹配id=div1中的所有a标签。
我已写了一个正则，但是性能太低：(?<=<div\s+id="div1"(?:(?!</div>)[\s\S])*?)<a>
求高人写一个性能更高的正则。谢谢。
<div id="div0">
<li><a></li>
<li><a></li>
<li><a></li>
<li><a></li>
<li><a></li>
</div>
<div id="div1">
<li><a></li>
<li><a></li>
<li><a></li>
<li><a></li>
<li><a></li>
</div>
<div id="div2">
<li><a></li>
<li><a></li>
<li><a></li>
<li><a></li>
<li><a></li>
</div>
问题中列出的html只是示例，比较短小，正则的性能问题不太明显。实际情况html复杂得多，性能影响很大，所以在此求一个性能更好的正则。
要求必须用正则实现，其它方法再好也用不上

举报该文章

其他看法

第1个回答 2012-10-18

正则表达式根本不是做这个的。

建议你用html类库分析成htmldom然后用xpathselect出来就可以了追问

那么正则是做什么的

追答

匹配文本捕获文本替换文本

不是用来分析这种模式化文档的

追问

我现在这个情况不正是要匹配文本吗？这里举的例子是html，如果是一段普通文本，没有什么结构，那么用分析结构的方案不就行不通了

追答

你这个不是文本，是用文本表示的结构文档，不一样的东西。

按照你这么说擦屁股的手纸上的屎代表的意义跟书本上的文字的意义一样咯

追问

不好意思啊，我这种情况比较特殊，只能用正则

追答

没看到什么特殊的，这种情况最好还是用dom分析

第2个回答 2012-10-18

正则在处理这种配套的标签的时候很难兼顾效率

推荐你先把div1的整个标签提取出来再2次处理,这样能快很多!本回答被提问者采纳

第3个回答 2012-10-18

这个用Jquery不是更快？？？？

相似回答

大家正在搜