亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

python與字符編碼問題

系統 2005 0

用python2的小伙伴肯定會遇到字符編碼的問題。下面對編碼問題做個簡單的總結,希望對各位有些幫助。

故事零:編碼的定義

我們從“SOS“(國際通用求助信號)開始,它的摩斯密碼的編碼是:

“…---…”,想一下為什么選用S、O、S來作為求救信號?因為它簡單,容易辨別且不容易發錯呀!
那么,字符編碼就是:

′給定一系列字符,對每個字符賦予一個數值,用數值來代表對應的字符,這一數值就是字符的編碼。例如,我們給字符'A'賦予數值0x41,則0x41就是字符'A'的編碼。字符編碼是字符的表現、儲存方式。

字符編碼需要處理兩件事:

(1)規定一個字符集中的字符由多少個字節表示;

(2)制定該字符集的字符編碼表,即該字符集中每個字符對應的(二進制)值。

字符集:′給定一系列字符并賦予對應的編碼后,所有這些字符和編碼對組成的集合就是字符集。′比如,給定字符列表為{'A','B'}時,{'A'=>0x41,‘B'=>0x42}就是一個字符集。

常見字符集有:

ASCII
GB2312
GBK
GB18030
Big5
Unicode

一張圖總結:

故事一:Python2與Python3的字符串類型?

python2中的字符串有str和unicode類型,而python3中字符串只有unicode類型。比如?‘你好'是str字符串,而?u'你好'則是unicode字符串。

故事二:decode()和encode()傻傻分不清?

decode()?是將str字符串轉化為unicode字符串;encode()?是將unicode字符串轉化為str字符串。所以要做一些編碼的轉換通常是以unicode作為中間編碼做轉換。如name.decode(“GB2312”)表示將GB2312編碼的字符串name轉換成unicode編碼,name.encode(“GB2312”)表示將unicode字符串name轉換成GB2312編碼。

python與字符編碼問題_第1張圖片

故事三:UnicodeEncodeError: ‘ascii' codec can't encode character?

我們先看看兩張圖,是不是很煩?

python與字符編碼問題_第2張圖片

python與字符編碼問題_第3張圖片

下面我們看個例子:

當用u'字符串'申明這個字符串變量時就指明了該字符串是使用unicode字符編碼。當要將unicode字符串轉換為str字符串或者寫入文件時,python2默認使用ASCII?碼保存數據,而ASCII?碼無法識別大于128?的字符,于是報了上面的錯誤。
附ASCII碼表:

python與字符編碼問題_第4張圖片

故事四:unicode是什么?

unicode可以看做一個終極的字符編碼方法,它給出了地球上常用字符的二進制映射,而且所有的二進制字符串唯一地表示一個字符。但是,unicode只給出了字符和二進制串的對應關系,并沒有給出存儲形式。而不同字符所占用的存儲空間可能不同,比如ASCII?在unicode中只占用了一個字節即可,而常用漢字在unicode中需要占用兩個字節,還有一些羅馬字符可能需要三個或以上字節。如果直接存儲的話可能導致無法分割字符串,也無法正確解碼出字符。

故事五:UTF-8橫空出世?

互聯網的普及,強烈要求出現一種統一的編碼方式。這時候UTF-8?出場。UTF-8?是unicode在計算機中的一種實現方式。UTF-8是一種變長編碼,每個字符占1-4?個字節。UTF-8?將字節分為數值位和標識位,數值位真正保存字符編碼數值,標識位表示這個字節是屬于哪個字符的、或者該字符占多少個字節。UTF-8?編碼方法:

單字節,首位為標識位0;多字節字符首字節標志位1??10開頭,字符占多少字節則有多少1,其他字節標識位10開頭;

§??單字節字符:?0xxxxxxx?(以0?開頭標志位,數值位用x?表示)

§??雙字節字符:?110xxxxx 10xxxxxx

§??三字節字符:?1110xxxx 10xxxxxx 10xxxxxx

§??四字節字符:?11110xxx 10xxxxxx 10xxxxxx10xxxxxx

unicode變為UTF-8?編碼非常簡單,unicode二進制按照從低到高,填充UTF-8的數值位,除去那些不真正表示數值的標識位(字節開頭的0,10,110,1110和11110),順序也是由低到高。以漢字“你”為例,可見它的unicode編碼為“4f60”(01001111 01100000)。

從“你”的unicode值范圍可以看到需要三個字節,接著從低位字節向高位字節填充得到“你”的UTF-8?編碼(高位沒有填充完則用0補充)。

可以看到將UTF-8?用于標記位(紅色)的位去掉,合并可以得到原始的unicode碼。

故事六:"unicode-escape"與"unicode-unescape"

“\u”是表示unicode的轉義字符,用\uxxxx這種方式表示unicode字符就是”unicode-escape”方式。說人話:′一句話:xxx.decode(“unicode-escape”)相當于把xxx解碼成unicode類型并返回。
而用”%uxxxx”的方式表示unicode字符,這種方式就是”unicode-unescape”,常用于javascript。

番外故事七:讀了那么多年書,你真的了解“全半角”?

全角---指一個字符占用兩個標準字符位置。
半角---指一字符占用一個標準的字符位置。
引申:寫程序時雙引號、冒號、小括號等為啥如此糾結?
--我國專家在制定GB2312字符集時,ASCII里本來就有的數字、標點、字母都統統重新編了兩個字節長的編碼。
是不是腦殼疼呀,想想我國程序員因為中英文切換犧牲了多少寶貴時間啊,啊嘿!

總結

以上所述是小編給大家介紹的python與字符編碼問題 ,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對腳本之家網站的支持!
如果你覺得本文對你有幫助,歡迎轉載,煩請注明出處,謝謝!


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 一区二区在线精品免费视频 | 在线免费午夜视频 | 久久国产精品国产精品 | 国产情侣久久精品 | 久久这里有精品视频任我鲁 | 操穴片| 欧美日韩无线码在线观看 | 91视频地址| 免费爱爱视频 | 中文字幕色婷婷在线视频 | 日韩欧美成末人一区二区三区 | 国产精品久久久久久永久牛牛 | 国产国产精品人在线观看 | 九九99线视频在线观看 | 日韩一区二区免费看 | 欧美综合一区二区三区 | 九九久久视频 | 精品一区二区久久久久久久网精 | 春色www视频在线观看 | 99亚洲乱人伦精品 | 亚洲视频在线观看视频 | 亚洲国产成人精品一区91 | 在线观看欧美亚洲日本专区 | 日本高清免费不卡在线播放 | 劲爆欧美色欧美 | 在线看欧美三级中文经典 | 成年人黄色小视频 | 成人午夜影院在线观看 | 中文字幕日韩精品一区口 | 蜜桃综合网 | 国色天香成人网 | 中文字幕日本不卡 | 高清不卡毛片免费观看 | 国产精品自在线天天看片 | 69成人做爰视频在线观看 | 91狠狠| 久久久欧美综合久久久久 | 国产高清在线精品一区二区三区 | 欧美精品在线一区二区三区 | 欧美成人另类69 | 日本国产精品 |