最近编写自己的rpc小框架,涉及到bytes.这里就想梳理一下编码与python的字符串和字节码(bytes)类型.
先上个图,有个印象,随时可以回头看.
# 前置知识
字符: 在计算机和电信技术中,一个字符是一个单位的字形、类字形单位或符号的基本信息。即一个字符可以是一个中文汉字、一个英文字母、一个阿拉伯数字、一个标点符号等;
字符集: 多个字符的集合。例如GB2312是中国国家标准的简体中文字符集;
字符编码:
将某个字符集中的字符转换成一个唯一编号(码点,二进制数据).于是同时,我们也可以根据字符编号找到对应字符集中的唯一字符。(专业点的比喻就是映射);
UTF 编码方案:
Unicode字符集转换格式,即怎样将Unicode定义的数字转换成程序数据.
Unicode解决了字符和二进制的对应关系,但是使用unicode表示一个英文字符,太浪费空间。例如:利用unicode表示“Python”需要12个字节才能表示,比原来ASCII表示增加了1倍。
为了解决存储和网络传输的问题,出现了Unicode Transformation Format,学术名UTF,即:对unicode中的格式进行转换,以便于在存储和网络传输时可以节省空间.
同时为了 传输时的可靠性 ,从UNICODE到UTF时并不是直接的对应,而是要过一些算法和规则来转换。
总结:UTF 是为unicode编码 设计 的一种 在存储 和传输时节省空间的一系列编码方案。
UCS:
对于Unicode来说,UCS是内码是唯一编号,而UTF-8则是它的实现方式。
从字符经过字符集得到唯一编号的这个过程.就是USC.
UCS只是规定如何编码,并没有规定如何传输、保存这个编码。UCS-2是2个字节保存内码,UCS-4是4个字节保存内码.
例如“汉”字的UCS编码是6C49,我可以用4个ascii数字来传输、保存这个编码;也可以用utf-8编码:3个连续的字节E6 B1 89来表示它。关键在于通信双方都要认可。UTF-8、UTF-7、UTF-16都是被广泛接受的方案。UTF-8的一个特别的好处是它与ISO-8859-1完全兼容。UTF是“UCS Transformation Format”的缩写。
位(bit): 数据存储的最小单位。每个二进制数字0或者1就是1个位; 0或1
字节(byte): 8个位构成一个字节;即:1 byte (字节)= 8 bit(位); 0000,0000~1111,1111
python中的序列操作 : 索引,切片,长度, 组合(序列相加)、重复(乘法),检查成员,遍历(迭代),最小值和最大值。
# Unicode 是啥
根据前置知识,我们可以猜到.ASCII,Unicode 指的是 字符集+字符编码的组合.
ASCII字符集:128个 常用英文字符+常用符号
ASCII码 : 一个字节 python中: 2个16进制表示此2进制数据 '\xc4\x80'
Unicode字符集: 万国码,所有国家的字符.
Unicode码 : 两个字节 python中: 4个16进制表示此2进制数据 '\u7fd4'
汉字‘严’的 Unicode 是十六进制数4E25,转换成二进制数足足有15位(100111000100101),也就是说,这个符号的表示至少需要2个字节。表示其他更大的符号,可能需要3个字节或者4个字节,甚至更多。
# python3中的字符串
字符串是 Python 中最常用的数据类型。我们可以使用引号( ' 或 " )来创建字符串。
python3 字符串是一个 Unicode码点(内码)组成的不可变序列,支持通用序列操作。可以看作是一个都是数字的元组.这个数字可以在Unicode字符集里找到对应的字符.
在 Python2 中,普通字符串是以1字节ASCII码进行存储的,而Unicode字符串则存储为2字节unicode字符串,这样能够表示更多的字符集。使用的语法是在字符串前面加上前缀 u。
# UTF-8 又是啥?
字符通过unicode编码转成了一个二进制编号数字, 哪怕英文字符也需要2个字节.
而原本ASCII编码英文字符只需要一个字节.老美老欧不爽了,他们不用,unicode就没法全球化.
这导致出现了 Unicode 的多种面向传输的二进制格式照顾老美老欧的情绪 :
UTF-8( 可变 编码格式,最为重要),UTF-16,UTF-32编码.
UTF-8:被定义为将代码点编码为1至4个字节(其中英文只耗费1个字节,中文3字节),兼容ASCII
UTF-8具体的表现形式为:
- 0xxxxxxx:单字节编码形式,这和 ASCII 编码完全一样,因此 UTF-8 是兼容 ASCII 的;
- 110xxxxx 10xxxxxx:双字节编码形式;
- 1110xxxx 10xxxxxx 10xxxxxx:三字节编码形式;
- 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx:四字节编码形式。
UTF-16:2个字节
UTF-32:4个字节
注: 值得说明的是,虽然utf编码对汉字使用3个字节,但即使对于汉字网页,utf-8编码也会比unicode编码节省,因为网页中包 含了很多的英文字符。
# python3中的bytes
bytes对象是一个 0 <= x < 256 区间内的整数(一个字节)不可变序列。
# python3 字符串与bytes的区别
可能有人好奇,字符不特么也是二进制吗,不也是占字节么,python中字符串和bytes连操作都差不多,计算机万物皆二进制啊.都在扯鸡毛蛋呢,把人绕晕了不是.
字符串以,字符为单位进行操作.
bytes由多个字节组成,以字节为单位进行操作。
网络传输中在socket这里.是一个字节一个字节读的.可能读2个字节才是一个字符.
bytes是面向传输的python对象
上面前置知识有一句: 为了传输时的可靠性. 可能内码不方便传输?(待续..容我想想.....)
# python3 字符串与bytes的转换
字符串编码转成bytes
b = a.encode(encoding='utf-8') # bytes
bytes解码成字符串
c = b.decode(encoding='utf-8') # str
# 这里可以看出一个汉字 用utf-8编码是3字节
a = '哈哈'.encode('utf-8')
print(a) # 打印 b'\xe5\x93\x88\xe5\x93\x88'
b = b'\xe5\x93\x88\xe5\x93\x88'.decode('utf-8')
print(b) # 打印 哈哈
这里再讲一下GBK,为什么GBK看起来能直接编码呢,它的字符集难道也是UNICODE?
UNICODE 在制订时没有考虑与任何一种现有的编码方案保持兼容,这使得 GBK 与UNICODE 在汉字的内码编排上完全是不一样的,没有一种简单的算术方法可以把文本内容从UNICODE编码和另一种编码进行转换,这种转换必须通过 查表 来进行。
如果说unicode编码成UTF-8是算过去的,unicode编码成GBK就是一个个找过去的.
unicode码点〉unicode字符集 〉字符〉GB2312字符集〉GBK码点
str = "川普牛掰"
str_utf8 = str.encode("UTF-8")
str_gbk = str.encode("GBK")
print(str)
print("UTF-8 编码:", str_utf8)
print("GBK 编码:", str_gbk)
print("UTF-8 解码:", str_utf8.decode('UTF-8', 'strict'))
print("GBK 解码:", str_gbk.decode('GBK', 'strict'))
》〉》打印〉》〉》
川普牛逼
UTF-8 编码: b'\xe5\xb7\x9d\xe6\x99\xae\xe7\x89\x9b\xe9\x80\xbc'
GBK 编码: b'\xb4\xa8\xc6\xd5\xc5\xa3\xb1\xc6'
UTF-8 解码: 川普牛逼
GBK 解码: 川普牛逼
》〉》〉》〉》
未完待续,我再想想...