1. OpenCC介绍
Open Chinese Convert(OpenCC)是一个开源的中文简繁转换项目,致力于制作高质量的基于统计预料的简繁转换词库。还提供函数库(libopencc)、命令行简繁转换工具、人工校对工具、词典生成程序、在线转换服务及图形用户界面。
OpenCC具体如下特点
- 严格区分「一简对多繁」、「一简对多异」和「地域用词差别」。
- 支持异体字转换,兼容陆港澳台等不同地区用字差别。
-
严格审校一简对多繁词条,原则为「能分则不合」,用户可自定义合并。
支持中国大陆、台湾、香港异体字和地区习惯用词转换,如「裏」「裡」、「鼠標」「滑鼠」。 - 词库和函数库完全分离,可以自由修改、导入、扩展。
- 支持C、C++、Python、PHP、Node.js等多种语言API,提供命令行直接调用,以及图形界面。
- 兼容Windows、Linux、Mac等多种平台。
2. OpenCC-python
用法请详细参考OpenCC-python in pypi
2.1 安装
pip install opencc-python
2.2 使用示例
#!/usr/bin/env python
#-*- coding: utf8 -*-
import opencc
cc = opencc.OpenCC('t2s')
print cc.convert(u'Open Chinese Convert(OpenCC)「開放中文轉換」,是一個致力於中文簡繁轉換的項目,提供高質量詞庫和函數庫(libopencc)。')
OpenCC有4种转换模式
- t2s - 繁体转简体
- s2t - 简体转繁体
- mix2t - 混合体转繁体
- mix2s - 混合体转简体
3. Shell用法
opencc-python的文本处理效率很低。另外一种提高转换效率的方式是直接在linux下安装OpenCC,处理效率会有飞一般的提升。
3.1 OpenCC安装
安装过程及问题主要参考: CentOS安装OpenCC
3.1.1 检查下linux环境下是否已经安装cmake以及git,如果没有,那就通过yum安装好。
$ yum install cmake
$ yum install git
3.1.2 克隆下OpennCC开源项目OpennCC开源项目。
git clone https://github.com/BYVoid/OpenCC
3.1.3 编译OpenCC
$ cd OpenCC
$ make
$ make install
3.1.4 创建libopencc.so.2链接
如果不知道libopencc.so.2的路径,可以通过find / -name libopencc.so.2查找。
$ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
3.1.5 通过查看 OpenCC 版本,检查OpenCC是否已经安装成功
$ opencc --version
3.2 OpenCC使用
#繁体转简体
$ echo '歐幾里得 西元前三世紀的希臘數學家' | opencc -c t2s
欧几里得 西元前三世纪的希腊数学家
#简体转繁体
$ echo '欧几里得 西元前三世纪的希腊数学家' | opencc -c s2t
歐幾里得 西元前三世紀的希臘數學家
#可以通过以下方式直接对文件进行繁简转换
$ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json