| 网站首页 | 易县新闻 | 易县图片 | 易县留言 | 易县在线 | 笑话 | 范文 | 教案 | 论文 | 考试 | 高校联盟 | 英语学习 | 法律 | 电脑网络 | 娱乐 | 两性频道 | 健康 | 求职创业 | 旅游 | 营销 | 疾病大全 | 汽车 | 
您现在的位置: 易县门户网 >> 电脑网络 >> 网站运营 >> baidu相关 >> 教程正文
做网站请注意百度的分词技术
作者:内详 来源:网络搜集 点击数: 更新时间:2008-6-18 18:04:16


          百度自称是全球最大中文搜索引擎,最了解国内网民的搜索习惯,做为中国搜索引擎的老大,很多草根站长一直在研究的它的搜索技术和排名算法,还有不少站长兄弟姐姐还要靠它的流量吃饭,为此草根网站的站长们对它是又爱又恨,百度能带来很大的流量,又会无情的K站或降权。

  好的,那咱们说说百度的分词技术,可能小弟有说的不对地方,请大家拍砖头,希望大家共同进步。没有研究百度分词前不明白百度为什么比google强大.其实分词也就是切词,百度是否拿来一句中文字符串拿来随便切一下呢,当然不会。那么怎么才满足被切割的条件呢?通过下面的实验就会发现如果字符串只包含小于等于3个中文字符的话,那就保留不动,比如:"牵引器"这个词,前提是一个完整的词,百度是不会切分的,当字符串长度大于4个中文字符的时候,百度的分词程序就会启动了。例如"牵引器价格",看看返回结果中标为红字的地方,不难看出来,查询已经被切割成“牵引器”,“价格”两个单词了,再试着换一个词。例如:我们来看"衡水牵引器",百度里提交查询一下,发现标红的关键字都是每一个是"牵引器","衡水",连续出现的情况,可以看到将"牵引器"与"衡水"切分成两个词,如果我们搜"衡水助康医疗器械"呢,发现标题是没有,网页内容比较完整是"衡水助康医疗器械http://www.hshuoyun.cn",可能是这个网站还没收录的原故,这个长尾词被切成了"衡水"/"康医疗器械".

  那现我们在来研究一下百度是分词算法,通过几年的发展,百度的分词算法已经算是相当成熟了,这其中也少不了SEOER 的功劳,有一位SEOER的前辈说过:"百度的算法有简单的有复杂的,有正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解。“让我们总结一下吧,这里面也有我个人的猜测, 百度拥有一个强大的词汇数据库,里面有我们通用所用的各种词语比如"人名,地名,产品的名称",举个例子"王元哲","衡水","牵引器",这些都是词库中有的,在切词时将专有名称切出,如"助康"这个词,词库中没有,下面

[1] [2] 下一页

教程录入:yxdoor    责任编辑:yxdoor 
  • 上一篇教程:

  • 下一篇教程: 没有了
  • 发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    赞 助 商 链 接
    特 别 推 荐
    相 关 文 章
    网站内容与网站推广的关系
    网络营销:提高企业网站的信用
    网站站长策划的难题和选择
    参考:企业网站整体运营推广方案
    网站策划和网站推广的依据是什
    网站编辑职位应该具备的技能及
    博客网站运营的好方法
    网站更换域名不影响搜索排名的
    网站改版后针对新站的网站优化
    外部链接和网站内容是保证站点
    最 新 热 门 资 讯
    普通教程打印机无法准确打印字体的解
    普通教程打开隐藏文件的方法
    普通教程暑期轻松刻录一夏——DVD刻
    普通教程“折磨”你的DVD——区码破
    普通教程主板系列知识:主板结构
    普通教程更换主板不用装系统的方法
    普通教程绝对意想不到 廉价板与高价
    普通教程主板系列知识:什么是FDD 插
    普通教程主板系列知识:适用平台
    普通教程主板不开机故障的检测顺序