Google 拼音词库转 Vimim 词库脚本

目录 开源

我写了一个将 Google 拼音输入法词库转换为 Vimim 词库的脚本,贴在这里,希望对大家有用。

#!/bin/bash
iconv -f gbk -t utf-8 "$@" | sed -e 's/ //g;s/^M$//g' | awk 'NR==1 {a=$3; printf "%s %s",$3,$1; next; }{ if($3==a) printf " %s",$1;else printf "n%s %s",$3,$1; a=$3;}' | sort  -d

(注意:上面那个 ^M 在 vim 中的输入方法是 Ctrl+vm。)

使用方法:
1. 在 Google 拼音输入法“属性设置->词典”选项页,将 Google 输入法词库导出为 .dic 文件,例如 google.dic。
2. 将 google.dic 拷贝到 Linux 中,或者使用 Cygwin,进入到包含 google.dic 的目录。
3. 下载本邮件附件 google2vimim,给它增加可执行权限 chmod u+x google2vimim。
4. ./google2vimim google.dic > vimim.pinyin.txt,得到的 vimim.pinyin.txt 就是符合 Vimim 规范的词库。

PS: 是的,我忘记了 r 的作用,所以上面脚本可以完全替换为:

#!/bin/bash
iconv -f gbk -t utf-8 "$@" | sed -e 's/ //g;s/r$//g' | awk 'NR==1 {a=$3; printf "%s %s",$3,$1; next; }{ if($3==a) printf " %s",$1;else printf "n%s %s",$3,$1; a=$3;}' | sort  -d

脚本的最新版本下载地址可以是:http://share.solrex.org/scripts/google2vimim

长按识别二维码关注《边际效应》
长按识别二维码关注《边际效应》

4 条评论

  • wzboy
    2009-05-22

    你在google工作?

    在vimim官方网站下载的词库文件,合并后使用windows cmd排序得到的文件出现乱码。

    "sort vimim.txt > vimim2.txt"

  • wzboy
    2009-05-22

    你在google工作?

    在vimim官方网站下载的词库文件,合并后使用windows cmd排序得到的文件出现乱码。

    "sort vimim.txt /O vimim2.txt"

  • Solrex Yang
    2009-05-22

    @wzboy
    我只是个在读研究生,和 Google 没有关系。
    微软的 sort 只接受 GBK 编码的文件,而 vimim 的词库文件是使用 UTF-8 编码的。

  • Iron_Feet
    2009-05-22

    话说Google输入法2.X终于出正式版了

发表评论

电子邮件地址不会被公开。 必填项已用*标注