| 自动分词与中文搜索引擎 |
| 作者:内详 来源:网络搜集 点击数:
更新时间:2008-3-31 10:53:03 |
|
|
笔者一直从事中文自动分词的研究,其中一个朴素的想法就是该研究对WWW上的中文搜索引擎一定会有帮助,但又常常为开放环境下自动分词难以达到满意的精度而苦恼。近来忽似有所悟,在此将点滴心得写出来,以抛砖引玉。一个关于中文搜索引擎的“有趣”体验 先讲一段笔者的“有趣”经历。一日,偶然想在WWW上查找与日本“和服”有关的资料。打开Yahoo China(http://cn.yahoo.com/)的搜索引擎,很自然地选择“和服”作为query。 检索结果完全出乎意料:找到了255个“相关网站”,却鲜有与“和服”相关者,如:“中国人才热线 GB - 提供招聘及求职的资讯和服务”。在255个网站中逐一查看实不能忍受,重新(即独立于以前的检索结果,下同)键入“和服” and “日本”,希望能缩小搜索范围。这次只得到一个与“和服”相关的网站:“宁波市江东星星丝织腰带厂 GB - 从事日本和服腰带的刺绣及制造”。
笔者不相信诺大的Yahoo China仅存此硕果,故又试“和服” and “服装”。这次共返回45个网站,但相关的仍只有“宁波市江东星星丝织腰带厂”,检索精度为1/45。笔者着实感到疑惑:难道真的要守宝山空手而归吗?脑海中忽跳出一个绝妙好词:“日式”,赶快键入“和服” and “日式”,终于挖出不少“宝”来:返回了1140个网页(不知为什么,查的是“相关网站”,操作也与以前完全相同,但反馈却死活都是“相关网页”),其中不乏与“和服”相关的内容,如:“和服文化“,下面是和服、日式服装商品的市场和其他纤维制品市场的比较图……”终于“大功告成”,当时心里一阵轻松。过后回想此事,却觉得不那么简单:如果想不出“日式”这个词,还要试多少个其他词?又有多少个相关的网页笔者根本就无从知道?不确定性太强了,似乎并不很易琢磨。检索好像成了一门“艺术”,而不是一门“技术”。
中文搜索引擎性能的初步测试=版权所有 [1] [2] [3] [4] 下一页
|
|
| 教程录入:yxdoor 责任编辑:yxdoor |
上一篇教程: 如何针对MSN搜索进行网站优化
下一篇教程: 全文检索 |
| 【发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口】 |