| 网站首页 | 易县新闻 | 易县图片 | 易县留言 | 易县在线 | 笑话 | 范文 | 教案 | 论文 | 考试 | 高校联盟 | 英语学习 | 法律 | 电脑网络 | 娱乐 | 两性频道 | 健康 | 求职创业 | 旅游 | 营销 | 疾病大全 | 汽车 | 
您现在的位置: 易县门户网 >> 电脑网络 >> 网站运营 >> 搜索引擎 >> 教程正文
自动分词与中文搜索引擎
作者:内详 来源:网络搜集 点击数: 更新时间:2008-3-31 10:53:03


       

笔者一直从事中文自动分词的研究,其中一个朴素的想法就是该研究对WWW上的中文搜索引擎一定会有帮助,但又常常为开放环境下自动分词难以达到满意的精度而苦恼。近来忽似有所悟,在此将点滴心得写出来,以抛砖引玉。一个关于中文搜索引擎的“有趣”体验
  先讲一段笔者的“有趣”经历。一日,偶然想在WWW上查找与日本“和服”有关的资料。打开Yahoo China(http://cn.yahoo.com/)的搜索引擎,很自然地选择“和服”作为query。
  检索结果完全出乎意料:找到了255个“相关网站”,却鲜有与“和服”相关者,如:“中国人才热线 GB - 提供招聘及求职的资讯和服务”。在255个网站中逐一查看实不能忍受,重新(即独立于以前的检索结果,下同)键入“和服” and “日本”,希望能缩小搜索范围。这次只得到一个与“和服”相关的网站:“宁波市江东星星丝织腰带厂 GB - 从事日本和服腰带的刺绣及制造”。

  笔者不相信诺大的Yahoo China仅存此硕果,故又试“和服” and “服装”。这次共返回45个网站,但相关的仍只有“宁波市江东星星丝织腰带厂”,检索精度为1/45。笔者着实感到疑惑:难道真的要守宝山空手而归吗?脑海中忽跳出一个绝妙好词:“日式”,赶快键入“和服” and “日式”,终于挖出不少“宝”来:返回了1140个网页(不知为什么,查的是“相关网站”,操作也与以前完全相同,但反馈却死活都是“相关网页”),其中不乏与“和服”相关的内容,如:“和服文化“,下面是和服、日式服装商品的市场和其他纤维制品市场的比较图……”终于“大功告成”,当时心里一阵轻松。过后回想此事,却觉得不那么简单:如果想不出“日式”这个词,还要试多少个其他词?又有多少个相关的网页笔者根本就无从知道?不确定性太强了,似乎并不很易琢磨。检索好像成了一门“艺术”,而不是一门“技术”。

  中文搜索引擎性能的初步测试=版权所有 

[1] [2] [3] [4] 下一页

教程录入:yxdoor    责任编辑:yxdoor 
  • 上一篇教程:

  • 下一篇教程:
  • 发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    赞 助 商 链 接
    特 别 推 荐
    相 关 文 章
    做网站请注意百度的分词技术
    主板系列知识:CPU自动检测
    怎样取消自动待机
    微软官方回应系统未经许可自动
    修改注册表让电脑开机后瞬间自
    如何让电驴自动连接P2P服务器?
    系统安全基础关闭Windows自动播
    电脑突然自动关机,竟然再也无
    阻止通电自动开机
    故障一环扣一环,电源导致电脑
    最 新 热 门 资 讯
    普通教程打印机无法准确打印字体的解
    普通教程打开隐藏文件的方法
    普通教程暑期轻松刻录一夏——DVD刻
    普通教程“折磨”你的DVD——区码破
    普通教程主板系列知识:主板结构
    普通教程更换主板不用装系统的方法
    普通教程绝对意想不到 廉价板与高价
    普通教程主板系列知识:什么是FDD 插
    普通教程主板系列知识:适用平台
    普通教程主板不开机故障的检测顺序