亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

同樣是Python,怎么區別這么大

系統 1947 0

發現問題

上周,我的測試同事告訴我,你的用戶名怎么還允許中文啊?當時我心里就想,你們測試肯定又搞錯接口了,我用的是正則w過濾了參數,怎么可能出錯,除非Python正則系統出錯了,那是不可能的。本著嚴謹的作風,我自己先測試一下,沒問題看我怎么懟回去。可是當我測試,我就懵逼了,中文真TM都驗證通過,不對啊,我以前也是這么過濾參數的,測試沒問題啊?唯一的區別是現在用的是Python3。
上網搜了一圈,發現沒有一篇文章講述Python2和Python3的正則在處理字符串是的區別,都是一視同仁,知道我去翻了一遍官方文檔,才明白怎么回事。

問題復現

我們都知道,Python有個正則規則 w ,幾乎所有的網上博客文章都告訴你,這個規則匹配字母數字及下劃線,但實際并不是這樣:
有Python2代碼如下:

          
            ~|? python
Python 2.7.10 (default, Aug 17 2018, 19:45:58)
[GCC 4.2.1 Compatible Apple LLVM 10.0.0 (clang-1000.0.42)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> aa = '捕蛇者說'
>>> re.match('\w{1,20}', aa)
>>> bb = 'abc123ADB'
>>> re.match('\w{1,20}', bb)
<_sre.SRE_Match object at 0x1031b0b28>
          
        

我們可以看到,在python2中, w 是無法匹配中文的。那么,同樣的代碼在Python3中運行結果是什么樣子的了?

          
            ~|? python3
Python 3.7.1 (default, Nov 28 2018, 11:55:14)
[Clang 9.0.0 (clang-900.0.39.2)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> aa = '捕蛇者說'
>>> re.match('\w{1,20}', aa)

            
              
>>> bb = 'abc123ADB'
>>> re.match('\w{1,20}', bb)

              
            
          
        

但在Python3中 w 是可以匹配中文的,這是怎么回事了?要回答這個問題,我們要回到Python官方文檔中來尋找答案。

解決問題

當我們仔細閱讀Python的官方文檔時,就會發現,對于同樣的正則規則 w ,Python2和Python3區別好大,我們先來看看Python2:

          
            When the LOCALE and UNICODE flags are not specified, matches any alphanumeric character and the underscore; this is equivalent to the set [a-zA-Z0-9_]. With LOCALE, it will match the set [0-9_] plus whatever characters are defined as alphanumeric for the current locale. If UNICODE is set, this will match the characters [0-9_] plus whatever is classified as alphanumeric in the Unicode character properties database.
          
        

翻譯一下:當沒有設置LOCALE(re.L)和UNICODE(re.U)標志,匹配數字字母和下劃線,如果設置了LOCALE(re.L)則匹配數字下劃線和LOCALE文字。如果設置了UNICODE(re.U)標志,匹配數字下劃線和Unicode字符集里的字符。

那么Python3了:

          
            對于 Unicode (str) 樣式:
匹配Unicode詞語的字符,包含了可以構成詞語的絕大部分字符,也包括數字和下劃線。如果設置了 ASCII 標志,就只匹配 [a-zA-Z0-9_] 。
對于8位(bytes)樣式:
匹配ASCII字符中的數字和字母和下劃線,就是 [a-zA-Z0-9_] 。如果設置了 LOCALE 標記,就匹配當前語言區域的數字和字母和下劃線。
          
        

到此,我明白了,默認情況下,不設置任何標志,Python2 w匹配ASCII字符集里的字符,包括數字字符和下劃線,Python3 w匹配數字下劃線和Unicode字符集。所以,為了遷移方便,如果你想匹配ASCII字符集里的字符,指定標志為re.A,如果你想匹配Unicode字符集里的字符,指定標志為re.U。

總結

到此,我的問題是徹底解決了,但也有兩個教訓:

  • 看網上的教程要多注意,特別是教程里的環境和自己環境的區別
  • 多看官方文檔

關于Python2和Python3,還有很多區別,這里就不一一列舉了,歡迎大家留言討論。

獲取更多文章,關注我的公眾號:littlebyte
同樣是Python,怎么區別這么大_第1張圖片

收藏我的博客


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 98色花堂永久地址国产精品 | 婷婷综合久久中文字幕一本 | 福利在线视频一区热舞 | 亚洲伊人久久综合一区二区 | 精品日本亚洲一区二区三区 | 国产成人久视频免费 | 亚洲日韩在线视频 | 青青青国产色视频在线观看 | chinese在线播放91国内 | 国产亚洲欧美日韩国产片 | 黄片毛片免费观看 | 欧美成人精品不卡视频在线观看 | 免费在线观看毛片 | 欧美色大成网站www永久男同 | 一级呦女专区毛片 | 国产成人精品cao在线 | 99热这里只有精品免费 | 欧美成人免费观看久久 | 久久图片 | 四虎在线视频观看大全影视 | 精品亚洲性xxx久久久 | 性色生活免费看性大片 | 天天干天天舔天天射 | 999热成人精品国产免 | 免费视频爱爱太爽在线观看 | 欧美亚洲国产一区 | 伊人久久波多野结衣中文字幕 | 国产精品欧美亚洲韩国日本 | 图片专区亚洲 欧美 另类 | 国产欧美一区二区三区久久 | 国产精品一区二区四区 | 免费一级毛片在线播放视频 | 欧美日本高清 | 亚洲成在人天堂一区二区 | 日韩欧美视频在线 | 91国语精品自产拍在线观看一 | 亚洲欧美日韩v中文在线 | 狠狠色狠狠色综合久久第一次 | 国产久7精品视频 | 九九热re| 亚洲人成伊人成综合网久久久 |