文本例如:
<html>
<body>
<div>asdasd</div>
<p>avbc<img src="xx"/>llll<p/>
</body>
<html/>
意思就是只要文字和图片信息其他的标签都要去除掉。
正则表达式 <\/?((?!img).)*?\/?>
我给你一个Javascript语言的例子,你看看吧
<script type=text/javascript>应该可以了,要是真存在这种<p/>、<html/>标签到是还得改改
追问不止 这些 标签。标签很多的 就是 去掉除开img标签 类似这样的东西