Python如何将Unicode中文字符串转换成 string字符串

比如：
su = u'中国'
怎么将su转换成 su='中国' 的效果

举报该文章

相关建议推荐于2019-08-06

Unicode字符串可以用多种方式编码为普通字符串，假设unicodestring = u"Hello world"，依照所选择的编码(encoding)，如下：

1、#将Unicode转换成普通的Python字符串:"编码(encode)"。

2、 #将普通的Python字符串转换成Unicode: "解码(decode)"。

扩展资料：

Python转换字符和字符串的原因：为了处理不适合用ASCII字符集表示的数据。

在以ASCII码为中心的语言和环境中，字节和字符被当做相同的事物。由于一个字节只能有256个值，这些环境就受限为只支持256个字符Unicode码，另一方面，有数万个字符，那意谓着每个Unicode字符占用多个字节，因此，你需要在字符和字节之间作出区别。

（1）UTF-8编码能处理任何的Unicode字符。它也是与ASCII码向后兼容的，因此一个纯粹的ASCII码文件也能被考虑为一个UTF-8文件，而且一个碰巧只使用ASCII码字符的 UTF-8文件和拥有同样字符的ASCII码文件是相同的。

这个特性使得UTF-8的向后兼容性非常好,尤其使用较旧的Unix工具时。UTF-8 无疑地是在 Unix上的占优势的编码。它主要的弱点是对东方文字是非常低效的。

（2）UTF-16编码在微软的操作系统和Java环境下受到偏爱。它对西方语言是比较低效,但对于东方语言是更有效率的。一个UTF-16 的变体有时叫作UCS-2 。

（3）ISO-8859编码系列是256个字符的ASCII码的超集。他们不能够支援所有的Unicode码字符;他们只能支援一些特别的语言或语言家族。

ISO-8859-1,也既Latin-1,包括大多数的西欧和非洲语言,但是不含阿拉伯语。ISO-8859-2,也既Latin-2,包括许多东欧的语言,像是匈牙利语和波兰语。

参考资料：

百度百科--Unicode

温馨提示：内容为网友见解，仅供参考

当前网址：https://11.t2y.org/zz/f48p8248p8274sm8m74.html

其他看法

第1个回答推荐于2016-04-16

普通字符串可以用多种方式编码成Unicode字符串，具体要看你究竟选择了哪种编码：
unicodestring = u"Hello world"
# 将Unicode转化为普通Python字符串："encode"
utf8string = unicodestring.encode("utf-8")
asciistring = unicodestring.encode("ascii")
isostring = unicodestring.encode("ISO-8859-1")
utf16string = unicodestring.encode("utf-16")
# 将普通Python字符串转化为Unicode："decode"
plainstring1 = unicode(utf8string, "utf-8")
plainstring2 = unicode(asciistring, "ascii")
plainstring3 = unicode(isostring, "ISO-8859-1")
plainstring4 = unicode(utf16string, "utf-16")
assert plainstring1 == plainstring2 == plainstring3 == plainstring4

第2个回答 2014-09-04

print su

第3个回答 2015-03-05

本身的文档是utf-8的话直接用encode
su = su.encode('utf-8')

>>> u'中国'.encode('utf-8')

'\xe4\xb8\xad\xe5\x9b\xbd'

>>> print u'中国'.encode('utf-8')

中国

第4个回答 2014-09-05

su = u'中国'
print repr(su)

1 2 下一页

相似回答

大家正在搜