亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

Python處理中文標(biāo)點符號大集合

系統(tǒng) 2687 0

中文文本中可能出現(xiàn)的標(biāo)點符號來源比較復(fù)雜,通過匹配等手段對他們處理的時候需要格外小心,防止遺漏。以下為在下處理中文標(biāo)點的時候采用的兩種方法:

中文標(biāo)點集合

比較常見標(biāo)點有這些:

            
!??"#$%&'()*+,-/:;<=>@[\]^_`{|}~?????、〃》「」『』【】〔〕〖〗????????????C―‘'?“”??…??n.
          

調(diào)用zhon包的zhon.hanzi.punctuation函數(shù)即可得到這些中文標(biāo)點。

如果想用英文的標(biāo)點,則可調(diào)用string包的string.punctuation函數(shù)可得到:

            
!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~
          

因此,比如需要將所有標(biāo)點符號去除,可以進(jìn)行以下操作:

            
>>> import re
>>> from zhon.hanzo import punctuation
>>> line = "測試。。去除標(biāo)點。。"
>>> print re.sub("[{}]+".format(punctuation), "", line.decode("utf-8")) # 需要將str轉(zhuǎn)換為unicode
          

當(dāng)然,如果想去除重復(fù)的符號而只保留一個,那么可以用\1指明:比如

            
>>> re.sub(ur"([{}])+".format(punctuation), "\1", line.decode("utf-8"))
          

你也可以手工指定這些標(biāo)點符號

            
punctuation = """!??"#$%&'()*+-/:;<=>@[\]^_`{|}~?????、〃》「」『』【】〔〕〖〗????????????C―‘'?“”??…??n"""
re_punctuation = "[{}]+".format(punctuation)
line = re.sub(re_punctuation, "", line)
          

可以通過直接指定unicode碼范圍的辦法來strip,比如:

去除所有半角全角符號,只留字母、數(shù)字、中文

            
def remove_punctuation(line):
  rule = re.compile(ur"[^a-zA-Z0-9\u4e00-\u9fa5]")
  line = rule.sub('',line)
  return line
          

漢字的范圍為”\u4e00-\u9fa5“,這個是用Unicode表示的,所以前面必須要加”u“;字符”r“的意思是表示忽略后面的轉(zhuǎn)義字符,這樣簡化了后面正則表達(dá)式里每遇到一個轉(zhuǎn)義字符還得挨個轉(zhuǎn)義的麻煩

最后可以組合成為一個函數(shù)

            
def remove_punctuation(line, strip_all=True):
  if strip_all:
    rule = re.compile(ur"[^a-zA-Z0-9\u4e00-\u9fa5]")
    line = rule.sub('',line)
  else:
    punctuation = """!??"#$%&'()*+-/:;<=>@[\]^_`{|}~?????、〃》「」『』【】〔〕〖〗????????????C―‘'?“”??…??n"""
    re_punctuation = "[{}]+".format(punctuation)
    line = re.sub(re_punctuation, "", line)
  return line.strip()
          

清洗完畢后,有時候我們希望按照多個標(biāo)點符號來分割

比如只要遇到中文或英文的逗號和句號等符號就分割,可以直接用translate把這些符號翻譯為統(tǒng)一的分隔符,再split:

            
strip_chars = '?"。.,,《》[]〖〗“”'
single_line = single_line.translate(str.maketrans(dict.fromkeys(strip_chars, '#')))
single_line = single_line.split('#')
          

總結(jié)

以上所述是小編給大家介紹的Python處理中文標(biāo)點符號大集合,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復(fù)大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持!


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 国产亚洲精品xxx | 很很鲁在线视频播放影院 | 色狠狠综合 | 中文字幕2区 | 国内精品自在自线在免费 | 男人天堂成人 | 久视频免费精品6 | 欧美videos肥婆hd | 一级一级一级毛片免费毛片 | 亚洲性色视频 | 欧美一级aⅴ毛片 | 波多野结衣久久精品 | 色综合久久88色综合天天 | 日韩亚洲一区二区三区 | 久久精品久久精品 | 91最新在线视频 | 国产亚洲精品福利在线 | 久久久精品2021免费观看 | 香蕉午夜 | 久草视频网址 | 国内久久久久久久久久 | 国产大片中文字幕在线观看 | 国产原创中文字幕 | 99国产精品一区二区 | 国产成人综合亚洲动漫在线 | 久久久久久色 | 日本高清精品 | 色噜噜狠狠成人中文小说 | 精品久久久久久中文字幕无碍 | 欧美午夜性刺激在线观看免费 | 热久久国产欧美一区二区精品 | 日韩亚洲欧洲在线rrrr片 | 久久亚洲一区二区 | 国产精品免费久久久久影院 | 国产欧美一区二区另类精品 | 深夜福利免费在线观看 | 免费看一级做a爰片久久 | 天天射天天干天天插 | 99热久久国产综合精品久久国产 | 插插插色综合 | 国产日韩欧美在线观看不卡 |