亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

Python - 常用庫 - OpenCC(中文繁簡體轉(zhuǎn)換)

系統(tǒng) 3723 0

1. OpenCC介紹

Open Chinese Convert(OpenCC)是一個(gè)開源的中文簡繁轉(zhuǎn)換項(xiàng)目,致力于制作高質(zhì)量的基于統(tǒng)計(jì)預(yù)料的簡繁轉(zhuǎn)換詞庫。還提供函數(shù)庫(libopencc)、命令行簡繁轉(zhuǎn)換工具、人工校對工具、詞典生成程序、在線轉(zhuǎn)換服務(wù)及圖形用戶界面。

OpenCC具體如下特點(diǎn)

  • 嚴(yán)格區(qū)分「一簡對多繁」、「一簡對多異」和「地域用詞差別」。
  • 支持異體字轉(zhuǎn)換,兼容陸港澳臺(tái)等不同地區(qū)用字差別。
  • 嚴(yán)格審校一簡對多繁詞條,原則為「能分則不合」,用戶可自定義合并。
    支持中國大陸、臺(tái)灣、香港異體字和地區(qū)習(xí)慣用詞轉(zhuǎn)換,如「裏」「裡」、「鼠標(biāo)」「滑鼠」。
  • 詞庫和函數(shù)庫完全分離,可以自由修改、導(dǎo)入、擴(kuò)展。
  • 支持C、C++、Python、PHP、Node.js等多種語言API,提供命令行直接調(diào)用,以及圖形界面。
  • 兼容Windows、Linux、Mac等多種平臺(tái)。

2. OpenCC-python

用法請?jiān)敿?xì)參考OpenCC-python in pypi

2.1 安裝

            
              pip install opencc-python

            
          

2.2 使用示例

            
              #!/usr/bin/env python 
#-*- coding: utf8 -*-
import opencc
cc = opencc.OpenCC('t2s')
print cc.convert(u'Open Chinese Convert(OpenCC)「開放中文轉(zhuǎn)換」,是一個(gè)致力於中文簡繁轉(zhuǎn)換的項(xiàng)目,提供高質(zhì)量詞庫和函數(shù)庫(libopencc)。')

            
          

OpenCC有4種轉(zhuǎn)換模式

  • t2s - 繁體轉(zhuǎn)簡體
  • s2t - 簡體轉(zhuǎn)繁體
  • mix2t - 混合體轉(zhuǎn)繁體
  • mix2s - 混合體轉(zhuǎn)簡體

3. Shell用法

opencc-python的文本處理效率很低。另外一種提高轉(zhuǎn)換效率的方式是直接在linux下安裝OpenCC,處理效率會(huì)有飛一般的提升。

3.1 OpenCC安裝

安裝過程及問題主要參考: CentOS安裝OpenCC

3.1.1 檢查下linux環(huán)境下是否已經(jīng)安裝cmake以及git,如果沒有,那就通過yum安裝好。
            
              $ yum install cmake
$ yum install git

            
          
3.1.2 克隆下OpennCC開源項(xiàng)目OpennCC開源項(xiàng)目。
            
              git clone https://github.com/BYVoid/OpenCC

            
          
3.1.3 編譯OpenCC
            
              $ cd OpenCC
$ make
$ make install

            
          
3.1.4 創(chuàng)建libopencc.so.2鏈接

如果不知道libopencc.so.2的路徑,可以通過find / -name libopencc.so.2查找。

            
              $ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2

            
          
3.1.5 通過查看 OpenCC 版本,檢查OpenCC是否已經(jīng)安裝成功
            
              $ opencc --version

            
          

3.2 OpenCC使用

            
              #繁體轉(zhuǎn)簡體
$ echo '歐幾里得 西元前三世紀(jì)的希臘數(shù)學(xué)家' | opencc -c t2s
歐幾里得 西元前三世紀(jì)的希臘數(shù)學(xué)家
#簡體轉(zhuǎn)繁體
$ echo '歐幾里得 西元前三世紀(jì)的希臘數(shù)學(xué)家' | opencc -c s2t
歐幾里得 西元前三世紀(jì)的希臘數(shù)學(xué)家
#可以通過以下方式直接對文件進(jìn)行繁簡轉(zhuǎn)換
$ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json

            
          

更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會(huì)非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 国产永久| 91情国产l精品国产亚洲区 | 国内精品免费一区二区观看 | 国产精品玖玖玖在线观看 | 欧美一区二区三区东南亚 | 中国国产一级毛片 | 国产区精品一区二区不卡中文 | 特级毛片免费视频 | 久久性视频| 伊人久久中文字幕 | 福利视频一区 | 深夜国产福利 | 丁香久久 | 久久99精品这里精品动漫6 | 日本免费一区视频 | 性一交一乱一视频免费看 | 精品无人区乱码1区2区3区免费 | 亚洲免费视频观看 | 99精品视频在线免费观看 | 99久久久精品免费观看国产 | 亚洲视频高清 | 国产精品夜色视频一区二区 | 日本高清一 | 成人国产精品999视频 | 免费看一级黄色毛片 | 久久五月天综合网 | 日本亚洲免费 | 阳光灿烂的日子在线观看 | 精品一区二区三区 不卡高清 | www.男人的天堂.com | 伊人第一页 | 国产资源一区 | 久久久久免费观看 | 香港aa三级久久三级不卡 | 99热国产免费 | 99久久国产综合精品五月天 | 亚洲精品久久精品h成人 | 久操视频在线观看免费 | 97中文字幕在线 | 91精品全国免费观看青青 | 免费看国产片 |