python中unicode字符串的问题

最近用python抓网页，遇到一个大问题。网页上抓来的是以普通字符串形式存在的unicode编码，例如 '\u56c3\u67e4'，而不是u'\u56c3\u67e4'，我现在想要显示中文，该怎么办？

举报该文章

相关建议 2012-06-19

这个要看你在哪里显示，并且要知道你原来的是什么编码。一般用decode解码成unicode，然后用encode编码成你的显示支持的。s.decode('utf-8').encode('gb2312') 就是把s从utf-8解码成unicode的，然后再编码成gb2312的。

温馨提示：内容为网友见解，仅供参考

当前网址：https://11.t2y.org/zz/s8m27q2sq.html

其他看法

第1个回答 2012-06-19

'\u56c3\u67e4' 转 u'\u56c3\u67e4':
方法1:
text = eval("u"+"'\u56c3\u67e4'")
方法2:
s = '\u56c3\u67e4'
text = "".join(unichr(int(c, 16)) for c in s.split('\u')[1:])本回答被提问者采纳

python在进交互UnicodeDecodeError: 'gbk' codec can't decode byte 0...
这个错误通常是由于Python解释器无法将输入的字节序列解码为Unicode字符串，而导致的。它通常是因为编码不匹配导致的，比如在GBK编码下输入了一个无法解码的字节。解决此问题的方法是将Python解释器的编码设置为匹配输入的编码。可以使用以下方法来解决该问题：在终端或控制台输入以下命令设置Python解释器的编码为...

Python字符串'\0'输出问题:字符串转义、编码、解码
运行结果：人生苦短，我学Python！Unicode：为了解决各个国家编码冲突的问题，Unicode编码就因此而生。使用 encode() 函数对字符串进行编码。或运行结果：b'\\\果\\\果'使用 decode() 函数进行解码运行结果：果果 UTF-8：是针对Unicode的一种可变长度字符编码。它可以用来表示Unicode标准中的任何...

python编程中中文输出乱码UnicodeEncodeError: 'ascii' codec can...
归根结底是两个对象的类不同，但python不支持这两种类型的强转，个人想了个比较临时的解决方案，算是个python打了个补丁，就是将字符串转成二进制，再转回字符串，这样就unicode就不用给他加上编码方式再转成二进制字符串了，修改后的代码如下：-*- coding: utf-8 -*-import requestsfrom bs4 ...

怎样将unicode编码转换为中文
1. Python 2与Python 3在字符编码处理上存在一些差异。2. 在Python 2中，字符串默认是以Unicode编码的，通常在字符串前加'u'来表示Unicode编码。3. 将Unicode转换为中文，可以通过解码操作来实现。例如：- 在Python 3中，如果Unicode字符串'欢迎'进行编码，得到的是UTF-8编码的字节串：`b'\\xe6\\xa...

怎么把Unicode字符,做转换显示成中文
首先，让我们明确问题的起因。当Python处理国际化数据时，它可能会返回Unicode字符串，这是为了保持字符串的原始格式，并且能正确处理多种语言的字符。但如果你的目标是只显示中文字符，这可能就显得有些多余了。针对上述代码示例，输出显示为包含Unicode前缀的字符串，这是因为Python在处理中文字符时，通常会...

Python 中比较两个相同的字符串,为什么说不相等?
1. 不可见字符: 有可能存在一些不可见的字符，如空格、制表符或其他特殊字符。你可以使用 `strip()` 函数来删除字符串两端的空白字符，或者使用 `replace()` 函数将所有的空白字符替换掉。2. 编码问题: Python 中的字符串是 Unicode 字符串，如果你的两个字符串来自不同的源或者经过了不同的处理，...

关于python中字符编码的问题
UnicodeEncodeError: 'gbk' codec can't encode character u'\㈲' in position 0: illegal multibyte sequence 但是，本身的确已经是转换好了unicode字符串了。详情可参考：【整理】Python中，如何将反斜杠u类型（\\uXXXX）的字符串，转换为对应的unicode的字符（此处不能贴地址，请用google搜标题，...

python UnicodeDecodeError 报错解决方法
出现错误分析：由于python在安装时，默认的编码是ascii。当出现非ascii字符时，就出报错。“中国”是字符串，python自动先解码将起转换为unicode,然后再encode编码为utf-8。如果不指定编码，python会自动采用默认的编码方式解码，也就是用ascii解码中文，当然出错了。解决思路：改变默认编码为utf-8编码。

python中unicode编码有多少位(2023年最新分享)
python程序采用unicode编码,一个中文字符对应几个 python程序采用unicode编码,一个中文字符对应两个字节。Unicode编码中,一个英文等于两个字节,一个中文(含繁体)等于两个字节。 python3字符串都是什么编码编码字符串是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。因为计算机只能处理数字,如果要处理文本...

python 3中使用Unicode字符串操作符u的结果为什么是这样的?
Unicode是一种字符编码，它把各种语言的符号，编排起来，用一个数字表示。每一种语言的符号都大致有一个区间，比如：4E00~9FA5这个区间是“中日韩统一表意文字”输入u'\一'可以发现这个字是“一”，u'\丁'是“丁”查询百度百科可以知道u'\ሴ'这个字符所在埃塞俄比亚文字这个区间。

相似回答

大家正在搜