欢迎来到北方

超冷。4月了,晚上盖两床被子都不暖和。

昨天讨论复活节假去哪儿玩,最后果然又是各回各家各找各妈。做饭的时候发了几分钟呆,忽然发觉自己从未喜欢过任何一项集体活动。从幼儿园到现在,没有任何一个我呆过的班级、社团、组织还是团队(恶心的词)让我产生过好感。这个想法吓了我一跳,原来我也有一样东西是“从小就一直怎样怎样”这种类型的。

相反对于个人,喜欢的有很多,不喜欢的也很多,莫名其妙特别讨厌的有几个。这应该比较正常。我只是不能够和冠以各种名号的集体打交道,我觉得这没有意义。

这周末计划去荷兰,司机说车坏了去不成了。我觉得事实是他嫌从巴黎来亚眠接我们亏了。

法国的小萝莉都好可爱啊,只是长大了就不怎么行了。

唐诗的近义词

去年的唐诗生成唯一没有完成的就是近义词搜索。因为涉及上下文的比较,而且评价指标很明确,两个词一眼就能看出是否近义。相比相关词搜索就很随便,两个词只要一起出现过就几乎算相关了,这样说来,相关词搜索是近义词搜索的基础。

周末并没有出行,除了洗衣做饭写明信片还有很多时间,用emacs把上下文比较的算法写了一遍,发现词频较高,比如大于100的词,搜索出的近义词已经很令人满意,结果如下,有一些噪声。

故乡:帝乡、旧国、故国、乡里、旧山、故园、乡关

远山:远岫、石桥、孤峰、旧山

夕阳:斜阳、残阳、暮雨、落日

浮云:帝乡、楚云、黄云、云霄、片云、千峰、云霞、寒云、孤云、白云、青云

这种上下文算法对于词频小于100的词无效,因为唐诗的上下文很少,而且并不集中,也许在唐诗中寻找近义词并不合适=,=

不过总之,算是对PS中写的近义词搜索算法有一个交代。利用词性筛选和按频率重排应该能得到更好的结果。下周试一下。