笔者之前做过分词算法的测试员,其实分词技术并不是百度的强项,而是通过第三方的分词技术应用于自己是网站搜索上的,分词主要是通过对实词和虚词的分割,找到对用户来说有用的词这些词往往就被称作关键词,通过对分词技术的了解,让我们能够有效的提升网站关键词的指定,同时也有助于提升网站的排名!
通常分词算法是针对百度而言的,谷歌因为对分词技术不敏感,所以在中文搜索市场上,百度一直是领导者,返回的结果往往对用户更加的有用,所以我们做网站优化如果主要针对的是中文群体,那么了解百度的分词技术是非常必要的!下面我们就来具体的说明一下百度的分词技术!
一般而言,百度的中文分词是基于词典和统计的两种匹配方式,这两种方法并不是单独存在的,而是相互联系相互影响的!
一:基于词典的匹配方法
这是一种根据用户的搜索词语按照词典中的词语进行拆分,如果能匹配成功怎会切分成一个一个的单词,然后再根据方向上的不同,将这个单词分成正向和逆向的两种匹配方式,在正向的匹配中,又能够按照词语的长度不同又细分为最大匹配和最小匹配两种方式!这种分词技术单词匹配的程度主要取决于词典的完整性以及最新的更新情况!
对于这种分词技术,我们在做SEO优化的时候,在首页目标关键词的选择上就要结合这方面的原理,不能够人造单词,除非你能够造出“神马都是浮云”能够红遍大江南北的词,否则是很难获得流量的,就算是你能够将网站的排名提升到首页上,那也不管用!而且对于陌生的词汇,百度的搜索结果可能都不会返回结果,你的网站因此而不会被收录,所以在关键词的选择上一定要根据常用词,根据词典词来进行选择!
二:基于统计分词的方法
这种方法的分词技术,会需要搜索引擎进行大量的计算,比如字与字相邻的概率如何,某个短语在什么地方出现的最多,用户在搜索某个词语或者词的时候会寻找什么样的内容,这都是搜索引擎基于判断的标准,这个方法能够迅速对新词作出反应,比如当一个新闻热词出现的时候,很多人都会用这个新词来搜索这个词,比如小月月,比如药佳鑫等等,如果搜索引擎对这些词无动于衷,那么用户肯定不会使用这样的垃圾搜索引擎的!
版权免责声明: 1、本站内容均来源于网络,请自行鉴定真假 2、如有侵权,违法,恶意广告,虚假欺骗行为等 以上问题联系站长删除此文由 at-lib网站目录 编辑,未经允许不得转载!: