吕雪燕
莱芜职业技术学院 山东 271100
随着互联网信息的爆炸性增长,搜索引擎作为信息查询工具得到越来越广泛的应用,使用搜索引擎寻找信息已经成为人们获取信息最主要、最快捷的途径,常用的搜索引擎营销方式包括关键字广告、竞价排名及搜索引擎优化,搜索引擎优化具有低投入、高产出的独特优势,目前占据相当重要的地位。
SEO(Search Engine Optimization,搜索引擎优化),该技术在国内出现的时间要比国外晚很多,发展也相对缓慢,本文就网站结构在搜索引擎优化中的设计进行了研究。
研究搜索引擎优化实际上就是对搜索引擎工作过程的进行逆向推理,搜索引擎优化主要包括的工作是页面收录、页面分析、页面排序及关键字查询,下面就其对页面的收入流程及方式总结如下。
在互联网上,URL是每个页面的入口地址,搜索引擎蜘蛛程序就是从URL页面出发,通过URL抓取并存储原始页面,同时提取原始页面中的URL资源并加入到URL列表中,如图1所示。
图1 搜索引擎抓取页面简单流程
URL是页面的入口,而域名是网站的入口,搜索引擎蜘蛛程序通过域名进入网站,从而开展对页面的抓取,对于网站来说,如果想被搜索引擎收录,首要的条件就是加入搜索引擎的域名列表。
页面收录的原理是,如果把网站页面组成的集合看作是一个有向图,从指定的页面出发,沿着页面中的链接,按照某种特定的策略对网站中的页面进行遍历,不停地从 URL列表中移出已经访问过的URL,并存储原始页面,同时提取原始页面中的URL信息,再将URL分为域名及内部URL两大类,同时判断URL是否被访问过,将未被访问过的URL加入到URL列表中,递归的描述URL列表,直至能耗仅所有的 URL资源为止,经过这些工作,搜索引擎就可以建立庞大的域名列表、页面 URL列表及存储了足够多的原始页面,如图2所示。
图2 搜索引擎收录页面的工作原理
常见的搜索引擎页面收录方式主要有广度优先、深度优先及用户提交三种方式。
1.3.1 广度优先
如果把整个网站看作是一棵树,首页就是根,每个页面就是叶子。广度优先是一种横向的页面抓取方式,先从树的较浅层开始抓取页面,直至抓取完同一层次上的所有页面后才进入下一层。
1.3.2 深度优先
与广度优先的抓取方式恰恰相反,深度优先是一种纵向的页面抓取方式,首先跟踪的是浅层页面中的某一个链接从而逐步抓取深层次页面,直至抓取完最深层次的页面后才返回浅层页面,再跟踪其另一链接继续向深层页面抓取。
1.3.3 用户提交
为了抓取到更多的页面,搜索引擎还允许网站管理员主动提交页面,网站管理员只需要把网站中页面的 URL按照指定的格式制作成文件,提交给搜索引擎,搜索引擎就可以通过该文件对网站中的页面进行抓取及更新。
网站结构是指网站中页面之间的层次关系,按性质可分为逻辑结构及物理结构。网站结构在决定页面权重方面起着非常关键的作用,直接影响搜索引擎对页面的收录,合理的网站结构可以引导搜索引擎从中抓取到更多、更有价值的页面。
网站的逻辑结构是页面之间的链接关系所决定的结构,它反映的是页面之间的连接层次关系,在逻辑结构中,我们常用链接深度描述页面之间的链接层次。
链接深度指从页面到达目标页面所经过的路径数。例如,某网站的首页中存在链接指向页面A,则从首页到页面A的链接深度就是1。链接深度越小,表示从源页面到达目标页面的路径就越短,与重要页面之间的链接深度越小,被搜索引擎抓取的几率就越大。如图3所示,搜索引擎仅需抓取网站的首页并提取其中的链接后就可以发现页面A1,而对于页面C1,搜索引擎还必须抓取并提取页面A1、B1的链接后才能发现。
图3 网站结构示意图
网站的物理结构是由页面的真实存储位置所决定的结构,反映的是页面的存储层次,正常情况下,物理结构决定了页面的目录深度。
目录深度是指页面的目录层次。例如,Index.html存放在网站的根目录下,则该页面的目录深度为1。
目录深度会在一定程度上影响页面被收录的几率及权重。如果一个页面的目录深度过大,则会造成 URL的长度过大,从而导致搜索引擎可能会拒绝收录这个页面。因此,我们在对网站进行规划的时候尽量减少页面的目录深度。
网站结构优化就是对网站页面的存储方式(即物理结构)及内部链接关系(即逻辑结构)进行合理的调整,以减少页面的目录深度及与重要页面之间的链接深度。同时,增加重要页面的链接入口,从而提高这些页面被搜索引擎收录的几率及权重。
逻辑结构优化主要是减少页面之间的链接深度,包括减少普通页面与重要页面之间、重要页面与重要页面之间的链接深度,以及为网站中相对重要的页面增加更多的链接入口。
在相对重要的页面中存放更多链接指向其他的页面,这样不但可以减少页面之间的链接深度,还可以引导搜索引擎抓取网站中更多相对重要的页面。例如对于网站的首页,可以在合理的范围内加上更多指向其他相对重要的页面的链接。
在更多的页面中加上链接指向相对重要的的页面,就可以有效增加网站中相对重要的页面的链接入口,从而增加这些页面的链接权重。
为了让用户能够快速获取到所需信息,以及搜索引擎能够通过一个页面就抓取到网站中最重要的页面,还可以为网站建立“网站地图页面”。
物理结构的优化主要是减少页面的目录深度,站在URL的角度,实际上就是减少页面URL的目录层次。
对于全静态页面的网站,在规划网站时要精简目录结构,例如http://www.seochat.org/html/seo/seo.html,我们在规划目录时,可以精简为http://www.seochat.org/seo/seo.html。
对于动态页面的网站,则可以通过 URL重写的方式减少页面的URL的目录层次。
在实际操作中,我们会通过URL重写的方式使得网站中的每个页面的URL深度都为1,即URL形式为http://域名/文件名称。例如,http://www.seochat.org/show.php?cag=seo&id=2可以直接重写为http://www.seochat.org/seo_2.html。
理想的网站结构是一种平铺结构,即网站的物理结构及逻辑结构都是平铺型的。在物理结构方面,所有的页面都是存放到网站的根目录下(或 URL的形式为“http://域名/网页名称”),即所有页面的目录深度都为1;而在逻辑结构方面,网站中任意两个页面之间是直接链接的,即任意两个页面间的链接深度为1。
理想结构出现在页面数少于100的网站中。如果一个页面中的链接数量超过100,搜索引擎就可能拒绝索引该页面,或者忽略100以后的那部分链接指向的目标页面。
理想结构构建常从网站的物理结构及逻辑结构入手,也就是对网站的目录深度及链接深度进行规划。
在页面目录深度方面,对于静态页面的网站,只需把所有页面都存放到网站的根目录下即可;而对于动态网站,则需要把URL处理为“http://域名/文件名”的形式。
在逻辑结构方面,网站中任意一个页面都包含指向其他页面的链接入口,从而使得网站中任意两个页面之间的链接深度都等于1,如图4所示。
(1)首页与所有页面都是相互连接的,且链接深度=1。其中,首页与二级页面1、二级页面2的链接路径为a、d;与三级页面1、三级页面2的链接路径为b、c;
(2)二级页面与所有页面也是相互链接的,且链接深度=1。其中,二级页面1与二级页面2链接路径为i;二级页面1与三级页面2的链接路径为e、f;二级页面2与三级页面1、三级页面2的链接路径为g、h;
(3)三级页面间也是相互链接的,且链接深度=1。三级页面1与三级页面2链接路径为j。
图4 逻辑结构示意图
本文从搜索引擎对页面的收录原理着手分析,就网站逻辑结构和物理结构优化提出了一种方法,该方法对网站建设和推广具有一定的价值。
[1]林元元.搜索引擎优化技术(SEO)的应用.软件导刊.2009.
[2]吕梁.关键字策略在SEO中的应用研究.电子商务.2009.
[3]张红宇.浅论SEO及其实现.中国科技信息.2005.