怎么去除文本中的HTML标签,我要显示成纯文本

去掉所有标签 就要其中的文本

第1个回答  推荐于2017-09-26
在网页刚流行起来的时候,提取html中的文本有一个简单的方法,就是将html文本(包含标记)中的所有以“<”符号开头到以“>”符号之间的内容去掉即可。
但对于现在复杂的网页而言,用这种方法提取出来的文本会有大量的空格、空行、script段落、还有一些html转义字符,效果很差。
下面用正则表达式来提取html中的文本,
代码的实现的思路是:
a、先将html文本中的所有空格、换行符去掉(因为html中的空格和换行是被忽略的)
b、将<head>标记中的所有内容去掉
c、将<script>标记中的所有内容去掉
d、将<style>标记中的所有内容去掉
e、将td换成空格,tr,li,br,p 等标记换成换行符
f、去掉所有以“<>”符号为头尾的标记去掉。
g、转换&,&nbps;等转义字符换成相应的符号
h、去掉多余的空格和空行
代码如下:

using System;
using System.Text.RegularExpressions;
namespace Kwanhong.Utilities
{
/// <summary>
/// HtmlToText 的摘要说明。
/// </summary>
public class HtmlToText
{
public string Convert(string source)
{
string result;
//remove line breaks,tabs
result = source.Replace("\r", " ");
result = result.Replace("\n", " ");
result = result.Replace("\t", " ");
//remove the header
result = Regex.Replace(result, "(<head>).*(</head>)", string.Empty, RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"<( )*script([^>])*>", "<script>", RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"(<script>).*(</script>)", string.Empty, RegexOptions.IgnoreCase);
//remove all styles
result = Regex.Replace(result, @"<( )*style([^>])*>", "<style>", RegexOptions.IgnoreCase); //clearing attributes
result = Regex.Replace(result, "(<style>).*(</style>)", string.Empty, RegexOptions.IgnoreCase);
//insert tabs in spaces of <td> tags
result = Regex.Replace(result, @"<( )*td([^>])*>", " ", RegexOptions.IgnoreCase);
//insert line breaks in places of <br> and <li> tags
result = Regex.Replace(result, @"<( )*br( )*>", "\r", RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"<( )*li( )*>", "\r", RegexOptions.IgnoreCase);
//insert line paragraphs in places of <tr> and <p> tags
result = Regex.Replace(result, @"<( )*tr([^>])*>", "\r\r", RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"<( )*p([^>])*>", "\r\r", RegexOptions.IgnoreCase);
//remove anything thats enclosed inside < >
result = Regex.Replace(result, @"<[^>]*>", string.Empty, RegexOptions.IgnoreCase);
//replace special characters:
result = Regex.Replace(result, @"&", "&", RegexOptions.IgnoreCase);
result = Regex.Replace(result, @" ", " ", RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"<", "<", RegexOptions.IgnoreCase);
result = Regex.Replace(result, @">", ">", RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"&(.{2,6});", string.Empty, RegexOptions.IgnoreCase);
//remove extra line breaks and tabs
result = Regex.Replace(result, @" ( )+", " ");
result = Regex.Replace(result, "(\r)( )+(\r)", "\r\r");
result = Regex.Replace(result, @"(\r\r)+", "\r\n");
return result;
}
}//end class
}//end namespace
第2个回答  2013-06-09
直接拼到页面上就行了
第3个回答  2013-06-09
可以注释
//代表注释一行 或是 /* */代表注释一段

怎样把带html格式的内容转换成纯文本的文字.txt
第一种方法:复制带有,html格式的内容,粘贴到记事本清楚格式 第二种方法:使用编辑器工具,Dreamweaver Notepad清除格式。第三种:如果楼主说的是带有html代码的问题,比如在查看网页源代码,代码和文字都直接复制出来了,这时候的解决办法,把复制的文字粘贴在记事本里面(或者上面的编辑工具),另存为....

怎样把带html格式的内容转换成纯文本的文字
如果你想复制网页上的内容,直接复制然后粘贴到记事本里就是纯文本内容,如果你的是一个html原文件,不知道你有没有一个编辑器,记事本不算,word好像也可以的,用替换功能,一般的编辑器都有正则替换的,直接替换 <(.*)>,替换成空,现在所有的标签都会被替换掉的 ...

怎么让HTML显示纯文本
a、先将html文本中的所有空格、换行符去掉(因为html中的空格和换行是被忽略的)b、将<head>标记中的所有内容去掉 c、将<script>标记中的所有内容去掉 d、将<style>标记中的所有内容去掉 e、将td换成空格,tr,li,br,p 等标记换成换行符 f、去掉所有以“<>”符号为头尾的标记去掉。g、转换&,...

word如何清除格式为纯文本word如何清除格式为纯文本内容
另外,也可以使用快捷键Ctrl+空格键将文本变为纯文本格式。值得注意的是,在清除格式之前最好先备份原始文本,以防止发生意外情况。以上方法能够有效清除word中的文本格式,使其变为纯文本。work工具栏有清除格式按钮,选中需要清除格式的内容,点一下清除格式,就行了 ...

怎么让HTML显示纯文本
1、在做接口的时候,有些模板xml标签不是CDATA规范的,这样就会在碰到&这样的字符出现错误,需要替换,简单的思路是字符串替换或正则匹配,将&替换成& 。2、特别是有些专辑描述是html的内容,写入xml文件的时候需要将html内容转化为文本内容。3、下面给出HTML内容输出为存文本的两种工具方法,方便以后查阅...

如何去掉所有HTML标记,只保留纯文本
set re=Nothing 后面加上下面两行就行了。str=Replace(str," ","")str=Replace(str," ","")一个是去掉普通空格,一个是去掉全角空格。

asp.net c# 怎么将html转换为纯文本
简单的方法,复制到记事本里粘贴,然后再复制到ckeditor里,这样一般就没有html标签了,如果再有 可能也只是有一个P标签 ,切换到html状态下 删了就是了,当然另外有更好的方法就是在提交数据的时候,过滤HTML标签

html富文本编辑器,复制的标签如何处理
可以通过纯文本粘贴功能,将复制的标签转换成纯文本格式,再根据需要添加格式和样式。另外,也可以使用html清理工具,将复制的标签中的不必要的元素和样式进行过滤和清理,保留必要的内容和样式。这样可以确保编辑器中的内容格式干净整洁,符合预期。

如何将html实体转换成中文汉字
您的想要表达的应该过滤HTML标签吧 可以使用在线HTML\/JS\/CSS代码过滤工具。效果如图。本工具可以帮助你过滤掉文本中的html代码、js代码、css代码,生成干净的纯文本,也可以自己定义要替换的代码进行过滤。希望可以帮到您~

将文档目录转变为纯文本格式的最优操作方法是
将文档目录转变为纯文本格式的最优操作方法是复制粘贴法、使用转换工具。1、复制粘贴法:将文档目录中的内容复制到记事本或其他文本编辑器中,然后保存为纯文本格式,即可得到目录的纯文本格式。2、使用转换工具:可以使用一些文档转换工具,将Word文档转换为纯文本格式。常用的工具有Pandoc、Calibre等。使用...

相似回答