我写了一个将 Google 拼音输入法词库转换为 Vimim 词库的脚本,贴在这里,希望对大家有用。
#!/bin/bash
iconv -f gbk -t utf-8 "$@" | sed -e 's/ //g;s/^M$//g' | awk 'NR==1 {a=$3; printf "%s %s",$3,$1; next; }{ if($3==a) printf " %s",$1;else printf "n%s %s",$3,$1; a=$3;}' | sort -d
(注意:上面那个 ^M 在 vim 中的输入方法是 Ctrl+vm。)
使用方法:
1. 在 Google 拼音输入法“属性设置->词典”选项页,将 Google 输入法词库导出为 .dic 文件,例如 google.dic。
2. 将 google.dic 拷贝到 Linux 中,或者使用 Cygwin,进入到包含 google.dic 的目录。
3. 下载本邮件附件 google2vimim,给它增加可执行权限 chmod u+x google2vimim。
4. ./google2vimim google.dic > vimim.pinyin.txt,得到的 vimim.pinyin.txt 就是符合 Vimim 规范的词库。
PS: 是的,我忘记了 r 的作用,所以上面脚本可以完全替换为:
#!/bin/bash
iconv -f gbk -t utf-8 "$@" | sed -e 's/ //g;s/r$//g' | awk 'NR==1 {a=$3; printf "%s %s",$3,$1; next; }{ if($3==a) printf " %s",$1;else printf "n%s %s",$3,$1; a=$3;}' | sort -d
脚本的最新版本下载地址可以是:http://share.solrex.org/scripts/google2vimim。
你在google工作?
在vimim官方网站下载的词库文件,合并后使用windows cmd排序得到的文件出现乱码。
"sort vimim.txt > vimim2.txt"
你在google工作?
在vimim官方网站下载的词库文件,合并后使用windows cmd排序得到的文件出现乱码。
"sort vimim.txt /O vimim2.txt"
@wzboy
我只是个在读研究生,和 Google 没有关系。
微软的 sort 只接受 GBK 编码的文件,而 vimim 的词库文件是使用 UTF-8 编码的。
话说Google输入法2.X终于出正式版了