A-A+

python2 与 python3 str bytes问题

2021年04月11日 11:41 汪洋大海暂无评论共1444字 (阅读1,297 views次)

>>> s  = '编程'
>>> print s
编程
>>> s
'\xe7\xbc\x96\xe7\xa8\x8b'
>>>

在python2中直接调用字符串的变量的话，会打印其bytes(可以理解成用16进制表示字符串的内存地址，本质还是二进制）。在python2中，bytes和str是一回事。

为什么要有个bytes呢？。因为所有数据本质都是用二进制进行储存的，当传输数据的时候，要把这些数据先转换成二进制( bytes)在进行传输。除此之外，python2里还有个单独的数据类型，把字符串解码后，就会变成unicode。

>>> s
'\xe8\xb7\xaf\xe9\xa3\x9e' #utf-8
>>> s.decode('utf-8')
u'\u8def\u98de' #unicode 在unicode编码表里对应的位置
>>> print(s.decode('utf-8'))
路飞 #unicode 格式的字符

原因是python2的默认编码是ASCII,后来为了支持多国语言，就想弄个unicode。但是直接把ASCII转成unicode是很费劲的，所以龟叔直接搞了一个新的字符类型，就叫unicode,说白了就是你得在内存里先把字符串存成unicode类型

2008年python3出世，来了个大变革：

把字符串的编码变成了unicode,文件默认编码变成了utf-8。
把str 和bytes 做了明确区分， str 就是unicode格式的字符， bytes就是单纯二进制
还有一个很重要的是，在python3中，只有unicode给你展示字形，其他的编码一律用bytes展示，也就是说要你强制使用unicode。

内容来源：https://www.cnblogs.com/lshedward/p/9926150.html

-------------------------------同章-----------------------------

python2的字符串其实更应该称为字节串。通过存储方式就能看出来，但python2里还有一个类型是bytes呀，难道又叫bytes又叫字符串？嗯，是的，在python2里，bytes == str ，其实就是一回事　

除此之外呢， python2里还有个单独的类型是unicode , 把字符串解码后，就会变成unicode

PY3 除了把字符串的编码改成了unicode, 还把str 和bytes 做了明确区分， str 就是unicode格式的字符， bytes就是单纯二进制啦。

python 之路，致那些年，我们依然没搞明白的编码

最后一个问题，为什么在py3里，把unicode编码后，字符串就变成了bytes格式？你直接给我直接打印成gbk的字符展示不好么？我想其实py3的设计真是煞费苦心，就是想通过这样的方式明确的告诉你，想在py3里看字符，必须得是unicode编码，其它编码一律按bytes格式展示。

最后再提示一下，Python只要出现各种编码问题，无非是哪里的编码设置出错了
常见编码错误的原因有：

Python解释器的默认编码
Python源文件文件编码
Terminal使用的编码
操作系统的语言设置
掌握了编码之前的关系后，挨个排错就好啦　　

文章来源：https://www.cnblogs.com/alex3714/articles/7550940.html

蜗居

窄小蜗居，虽非富贵王侯宅；清闲螺径，也异寻常百姓家。 woj → 蜗居

python2 与 python3 str bytes问题

给我留言取消回复

布施恩德可便相知重

微信扫一扫打赏

支付宝扫一扫打赏

给我留言取消回复