唐诗的近义词

去年的唐诗生成唯一没有完成的就是近义词搜索。因为涉及上下文的比较,而且评价指标很明确,两个词一眼就能看出是否近义。相比相关词搜索就很随便,两个词只要一起出现过就几乎算相关了,这样说来,相关词搜索是近义词搜索的基础。

周末并没有出行,除了洗衣做饭写明信片还有很多时间,用emacs把上下文比较的算法写了一遍,发现词频较高,比如大于100的词,搜索出的近义词已经很令人满意,结果如下,有一些噪声。

故乡:帝乡、旧国、故国、乡里、旧山、故园、乡关

远山:远岫、石桥、孤峰、旧山

夕阳:斜阳、残阳、暮雨、落日

浮云:帝乡、楚云、黄云、云霄、片云、千峰、云霞、寒云、孤云、白云、青云

这种上下文算法对于词频小于100的词无效,因为唐诗的上下文很少,而且并不集中,也许在唐诗中寻找近义词并不合适=,=

不过总之,算是对PS中写的近义词搜索算法有一个交代。利用词性筛选和按频率重排应该能得到更好的结果。下周试一下。

Comments (2)