分类目录 共计收录12890站; 资讯文章53103篇; 待审网站 4462站; 当月收录0站; 今日审核0站; 已收到106个打赏!
分类目录快审
软文外链发布
原创文章撰写
 
快审详情
首页 > 教程收藏 > 站长资讯(vip)

百度关于网站的抓取和索引分析

28号百度官方发布了《搜索引擎索引系统概述》,对搜索引擎如何抓取页面、如何索引、如何排序,给了一个大致的阐述。那么对于网站管理者,如何利用这些规则,使网站上优秀的内容,更好的展现给用户呢?在q猪看来,需要解决以下几个问题:

第一个问题、如何充分抓取网站数据

分析:从网站的结构层面来解释这个问题,要使百度充分收录网站页面,就需要尽可能的让搜索引擎蜘蛛最大化的爬行网站,这就需要一个简单明了、层次分明的网站结构。对于什么是合理的网站结构,百度的很多文件都有提及,就是网状扁平树形结构。

1、网状保证每个页面都至少有一个文本链接指向,可以使网站尽可能全面的被抓取收录,内链建设同样对排序能够产生积极作用。

2、扁平保证从首页到内页的层次尽量少,既对抓取友好又可以很好的传递权重。

3、典型的树形结构是:首页-频道页-内容页

为了加强搜索引擎对每个页面在整个网站中的位置感,我们增加了导航,包括顶部、面包屑、底部导航等,需要说明的是,导航的最主要目的只是为了确定页面在网站中的位置,导航才是这些链接最主要的属性,所以尽量做到自然,不要堆积关键词。

和导航类似的一个功能就是url的规范化,一个简洁美观的url,不仅可以使用户和搜索引擎很自然的明白页面的主要内容,并可以兼具网站位置导航功能。同样,q猪需要强调的是,url尽量的简短,在中文搜索优化中,url是否包含关键词对页面的排名作用不大,类如q猪的这篇文章:百度关于搜索原理的阐述,url1是/seo/baiduguanyusousyuanlidechanshu.html,url2是/seo/123.html,q猪的选择是url2。

在搜索引擎抓取页面时,有两个问题是需要特别注意的:就是内容不要重复,页面观点不要重复,前者为了确定页面内容的唯一性,保护内容的原创性,增加搜索引擎对网站的评分,后者是为了避免不必要的内部竞争。

第二个问题、搜索引擎如何索引

分析:用户在搜索框中输入关键词、句,搜索引擎在输出结果之前,是需要对网络上亿万级的页面进行分析整理后存入数据库中,并建立索引,在用户输入关键词时,再按照重要性,从高到低排序呈现给用户,也解释了,为什么搜索引擎可以在用户输入关键词后,短短几毫秒间就可以输出结果。

那么,搜索引擎是如何分析网站页面,并建立索引的呢?

目前所有的引擎对页面内容的分析都是通过不断的识别、标记,每一个url都带上不同的标签,存入数据库,再根据原创性、页面权重等因素进行排序。还是以q猪的这篇“百度关于搜索原理的阐述”为例,通过识别可以将这段文字,分成:百度、关于、搜索、原理、的、阐述。具体关于搜索引擎如何分词,可以看下q猪的另一篇文章:搜索引擎如何理解文件。

需要指出的是,搜索引擎页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等,所以在页面优化时,需要特别注意标题、关键词布局、主体内容、内外链的描述、评论。

第三个问题、搜索引擎如何输出结果

分析:对内容进行标记并索引以后,在用户检索关键词时,搜索引擎就可以按照不同的组合,结合各种排名算法因素,按重要性倒序输出各种结果。

举例:

百度-0x123abc

关于-0x13445d

搜索-0x234d

原理-0x145cf

阐述-0x354df

每一个分词下,都有不同的页面:

0x123abc-1,3,4,7,8,11。。

0x13445d-2,5,8,9,11

如果要检索的关键词为:0x123abc+0x13445d,那么8和11将符合结果。

需要指出的是,对于符合要求的结果还要经过层层的过滤,包括过滤掉死链、重复数据、色情、垃圾结果以及你懂的。。。将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等,详细内容可以看看q猪的哪些因素可以提升网站的排名。

版权免责声明: 1、本站内容均来源于网络,请自行鉴定真假 2、如有侵权,违法,恶意广告,虚假欺骗行为等 以上问题联系站长删除

此文由 at-lib网站目录 编辑,未经允许不得转载!: