搜索引擎技术及其优化策略

2010-09-22 06:56刘小鸿
中国医学教育技术 2010年2期
关键词:关键字搜索引擎网页

刘小鸿

(第二军医大学教育技术中心,上海 200433)

·技术与教育·

搜索引擎技术及其优化策略

刘小鸿

(第二军医大学教育技术中心,上海 200433)

搜索引擎优化是进行网站推广的重要方式。根据搜索引擎定义、倒排索引建立原理、PageRank算法要素,分析并介绍了通过网站的结构、关键字、链接、内容来进行搜索引擎优化;根据网站安全问题,提出了网站安全优化方案。指出在实践的应用中证明了该方案的有效性,为网站建设提供了有益的 SEO方法。

搜索引擎;搜索引擎优化;PageRank算法;安全优化

搜索引擎优化 (search engine op tim ization,SEO)是指遵循搜索引擎的搜索原理,对网站结构、网页文字语言和站点间互动等内容进行合理规划部署,以改善网站在搜索引擎的搜索表现,进而增加客户发现并访问网站的可能性[1-2]。

随着互联网和W eb技术的发展,网上的信息也越来越多。搜索引擎已成为互联网上进行信息获取的一种重要手段,越来越多的用户通过搜索引擎找到所需信息。通过搜索引擎的检索,客户可以很方便地从关注度排序列表中找到相关的资料和信息。用户通常只关心搜索引擎返回的排在前列的页面。为了提高网站的访问量,就要求网站在列表中占据较好的位置。因此,有必要对网站进行搜索优化处理。

1 搜索引擎技术

1.1 搜索引擎定义

搜索引擎是指在 Internet上搜索信息并自动索引提供查询服务的一类工具,它主要通过网络搜索机器人W eb Robo ts收集 Internet信息,对其加工处理,建成供查询用的数据库,也称之为倒排索引。搜索引擎可被看作是一个对互联网和数据库中的信息资源进行搜集、整理、分类,并以一定的方式为用户提供检索服务的系统[3]。

搜索引擎一般是由信息采集模块、文档组织及索引模块、检索模块三部分组成:①信息采集模块负责从 Internet上搜集网页信息;②文档组织和索引模块将搜集来的网页和相关描述信息进行处理后,存储在索引数据库中,以备用户检索。处理过程主要包括文档特征提取、相关度分析、网页筛选、归类和入库;③检索模块是搜索引擎和用户之间的接口。它根据用户的查询要求,访问倒排索引数据库,根据搜索引擎排名算法获得检索结果,并按相关度大小将结果反馈给用户。

1.2 W eb文本预处理

用户读取W eb页面后,将相关信息存储下来,实际上就是对W eb页面对应的 htm l文档进行处理。由于作为W eb页保存下来的 htm l格式,除了标题、正文部分外,还包含许多 htm l的控制命令。要实现信息处理,需要过滤许多无用信息。因此,将 htm l文档转化为 txt(纯文本)文件,就是W eb信息预处理所要解决的问题。

将 htm l文档转化为 txt文档,主要是提取出 htm l文档中的五种信息[4]:

①文档标题:通过提取出置标命令〈title〉与〈/ title〉之间字串而得到;

②文档内容:通过提取出置标命令〈body〉与〈/ body〉之间所有正文文本得到;

③新的链接:通过提取出置标命令 <a href=“字串”>中引号部分的字符串得到;

④文档的关键字:通过提取出置标命令 <meta name="Keywords"content=""/>中的 content引号部分的字符串得到;

⑤文档的描述:通过提取出置标命令 <meta name="Descrip tion"content=""/>中的 con tent引号部分的字符串得到;

1.3 PageRank算法

PageRank是代表互联网上某个页面重要性的一个数值。计算某个网页 PageRank值时所有的入链接都要考虑在内,页面W的 PageRank值计算公式如下[5]:

公式中的 PR代表页面的 PageRank数值,t1~t2是导入链接指向页面W的网页,C是网页 d导出链接的数量,d是阻尼系数(常数,Google通常取值0.85)。

一般搜索引擎将 PageRank值与网页搜索结果相似度共同作为搜索结果的排序依据。

2 搜索引擎优化策略

搜索引擎优化的主要工作是通过了解各类搜索引擎如何抓取互联网页面、如何进行索引,以及如何确定其对某一特定关键字的搜索结果排名等技术,来对网页内容进行相关优化,使其符合用户浏览习惯,在不损害用户体验的情况下提高搜索引擎排名,从而提高网站访问量,最终提升网站销售能力或宣传能力的技术。影响网站搜索引擎排名的因素主要包括网站结构优化、关键字优化、链接优化、内容优化、搜索安全优化。

2.1 网站结构优化

2.1.1 网页优化 栏目导航系统尽量使用文本链接。使用图片链接导航的,要给图片和链接使用 alt或 Too lTip属性进行关键字填充。将相似的内容栏目通过相关栏目的形式组织在一起,提升关键字的群集密度。

2.1.2 整站优化 在层次方面,一级栏目首页的网页URL最好不超过两个层次,详细信息页面最好不超过4个层次。

在网站的代码书写上,应正确地选择编写页面代码和精简页面多余的无效代码,以减少页面体积。目前,搜索引擎蜘蛛比较友好的代码编写方式是D IV +CSS。应该尽量使用外部 JavaScrip t和 CSS文件,这样可以提高页面的速度。因为,JavaScrip t和 CSS文件都能在浏览器中产生缓存,在没有增加 HTTP请求次数的同时可以减少 htm l文档的大小。而内置在 htm l文档中的 JavaScrip t和 CSS则会在每次请求中随 htm l文档重新下载,这虽然减少了 HTTP请求的次数,却增加了 h tm l文档的大小。

2.2 关键字优化

根据潜在客户或目标用户在搜索引擎中找到所需网站时输入的语句产生了关键字的概念,关键字是搜索引擎优化工作的核心。因此,首先要确定核心关键字,再围绕核心关键字进行排列组合产生关键字组或短句。

2.2.1 关键字的确定 在网站策划过程中,首先应该调查潜在客户在搜索引擎中查询相关信息时输入的特征语句,筛选并记录下来,形成关键字,这些关键字就是搜索引擎优化的核心。通过在网页中加入这些特定的关键字,客户就很容易查找所需网站。

所选择关键字,首先必须与网站主题契合,不能盲目地追求热门关键字;要根据业务或产品的种类,尽可能选取具体的词。另外,选取那些常为人们在搜索时所用到的,而且是与网站所要重点推广的产品、服务、信息相关的关键字。

2.2.2 关键字位置优化 关键字所在位置对于搜索引擎判断某个关键字在页面的份量起到很重要的作用,关键字被置于标题、m eta标签以及部分属性标记中会有效提升搜索排名。

标题是网页中最重要的部分,在搜索结果中直接显示在用户面前。因为要显示给用户,搜索引擎认为标题是 htm l文件最重要和最简洁的摘要。在标题中适当突出关键字比较有利于排名的提高。

m eta是 htm l语言 head区的一个辅助性标签。m eta标签中的 Keyword与Descrip tion用来描述页面的主要内容及向搜索引擎和访问用户介绍网页包含哪些方面的信息。在 h tm l代码中,其被置于 <head></head>之间。Descrip tion标签可以是一小段文字,用于描述网站。搜索引擎认为描述里的关键字远比网页中的内容要重要。m eta标签提供了一种简略的方式来对搜索关键字做出反应,通过合理地组织 Keywo rd与Descrip tion,并进行适度的关键字填充,这样对网页的排名提升比较有利。

2.2.3 关键字密度优化 关键字密度是指关键字与一个页面中除掉 htm l代码的内容百分比,对搜索引擎排名结果有重要影响。在计算关键字密度时,搜索引擎是把 htm l代码标签排除在页面内容之外的。网页上通常会有数以千计的词语,页面涉及的某个关键字的密度越高,搜索引擎认为页面跟某个关键字的关系就越大。但关键字密度并不是越高越好,过度使用关键字会造成关键字堆砌,进而触发搜索引擎的过滤器,从而导致该网页或网站在倒排索引中排序降低,甚至会遭到屏蔽。因此,关键字密度一般以2%-8%为好。计算某个页面关键字密度可以借助关键字密度查询工具来检测,如可以进入 http:// tool.chinaz.com/进行关键字密度查询。

2.3 链接优化

链接流行度被认为是搜索引擎优化的一个主要因素。搜索引擎会认为外部链接较多的网站,重要性也相对较高。链接文字必包含有已优化的关键字,这样也会提高网站的排名。

2.3.1 内部链接优化 内部链接指的是同一站点内网页之间的相互链接。合理内部链接部署会让网站中的网页更加具有层次感。规划网站中哪些网页将会参与哪些关键字的排名,将相关页面进行互相链接。通过网页所获得的站点链接数的多少,搜索引擎将会很容易识别哪些页面在网站中是重要的。内部链接的合理使用有助于集中网站内容主题,从而使该主题中的核心关键字在搜索引擎中更加具有排名优势。

2.3.2 外部链接优化 外部链接分为导入链接和导出链接,导入链接指其他网站链至自己网站的链接,导出链接是逆向于导入链接的链接,也即自己网站链接其他网站的链接。

搜索引擎的链接分析机制主要关心“导入链接”,即究竟有多少站点链到了网站上,至于该网站导出链接的多少一般不影响该网站的排名。因此,被 PR(PageRank)高的网站引用能更快地提高本站的PR。应尽可能找那些 PR值高且外部链接数又少的网站。同时,可将网站主页添加到行业门户站点、网上论坛、留言簿等各种允许添加网址链接的地方。

虽然导出链接不影响网站的排名,但适当添加行业内或者领域内不产生竞争关系的常用网站的链接,能提高自己网站的关注度,较容易被客户置于收藏夹中。

2.4 内容优化

网站的实际内容是网络优化策略的一个重要的因素。搜索引擎的 Sp ider只能对你网页内容进行判断网站的质量,而不能从图片、Flash动画上判断。定期完整发布网站所有页面,可以让页面的最后修改日期得到更新,有利于排名的提高。一个网站不断有新的内容是用户频繁光顾的最大原因。更新速度快也是网站吸引搜索引擎 Sp ider频繁光顾的最简单的原因。提供有趣、有价值的网站内容,这样其他网站的网站主们会主动和你进行友情链接,从而提高你的外部链接值。丰富的信息是一个网站吸引用户的基本要素,也是吸引用户重复访问的最重要因素。

2.5 搜索安全优化

网络 Sp ider的搜索排名能有效地推广网站,但同时也会给网站的安全带来隐患,部分企事业单位只是希望自己网站的部分页面仅被部门内部共享,不希望被其他用户浏览到,这时可以通过网站搜索安全优化来禁止搜索引擎收录。

搜索引擎使用 Sp ider程序自动访问互联网上的网页并获取网页信息。Sp ider在访问一个网站时,会首先检查该网站的根目录下是否有一个叫做robots.txt的纯文本文件,这个文件用于指定 Sp ider在您网站上的抓取范围。您可以在网站中创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

要防止所有搜索引擎显示您网站的快照,可将<meta name="robots"content="noarchive">标记置入网页的 <head>部分;要允许其他搜索引擎显示快照,但仅防止百度显示,则使用 <meta name="Baidu spider"content="noarchive">标记。

3 SEO验证

根据 SEO策略,对高招志愿网 (www.zhiyuan 789.com,该网站没有做搜索硬性推广)进行搜索优化处理,在该网站中参与搜索优化的页面较多,现仅以首页 Defau lt.aspx为例,采用搜索优化策略的具体实施如表 1所示。

表 1 高招志愿网首页 SEO实施策略

针对百度和 Google两大主流搜索引擎,该网站进行 SEO处理后,搜索对比如表 2所示。

一般而言,超过 90%的用户只查看搜索结果的前 3页,也就是排名前 30位的搜索结果。由表 2可知,如果没有进行搜索优化处理,那么搜索形如“高招志愿网”关键词,在百度中平均位置排名为84 000,也就是位于第8 400页;在 Google中平均排名是445 000,也就是位于第 44 500页,这样用户几乎不可能浏览到该网页。而经过搜索优化处理后,在百度和Google中分别位于首页的第三和第一位次。因此,用户很有可能会点击进入该网站浏览。可见,该文方法是有效可行的。

表 2 部分关键字 SEO排名

如何对网站进行搜索引擎优化是伴随搜索引擎而来的技术课题,搜索引擎优化方案也随着搜索引擎算法演进而改变,这也是网站主关注的焦点。文中根据当前搜索引擎技术和方案,总结并拓展了搜索引擎优化的策略。搜索引擎访问互联网上的网页并获取网页信息不可避免会对网站安全带来了隐患,在分析如何通过优化来提高排名的同时,也解决了避免网站信息泄露的方案,为网站建设者提供有益的SEO参考策略。

[1]吴育良.图书馆网站建设之搜索引擎优化[J].科技情报开发与经济,2008,18(21):48-49

[2]杨松,杨文莲.基于关键字和链接的搜索引擎优化策略[J].渤海大学学报:自然科学版,2006,27(3):269-271

[3]孙淑伟,张力.搜索引擎对用户获取信息方式的影响及发展趋势[J].中国医学教育技术,2007,21(1):18-21

[4]张劲松.W eb文本发现及其在网络广告投放中的应用研究[D].上海理工大学,2009

[5]张巍,李志蜀.基于 PageRank算法的搜索引擎优化策略[J].计算机应用,2005,25(7):1711-1718

Search eng ine techn ique and op tim iza tion tactics

L iu X iaohong
(Cen ter of Educa tiona l Technology,Second M ilitaryM ed ica lUniversity,Shanghai200433,China)

Search engine op tim ization(SEO)is an importantway forwebsite p romotion.Based on the definition of search engine,p rincip le of inverted index,and calcu lation facto r of PageRank algorithm,the paperanalyzesan SEO strategy developed through thewebsite’s structure,keywords,links and content.Based on w eb security p rob lem,a w ebsite op tim ization m ethod is p roposed.Practice has p roved that this strategy is effective and can p rovide som e useful SEO m ethods forw ebsite construction.

search engine;search engine op tim ization(SEO);PageRank algorithm; security op tim ization

G434;TP393

A

:1004-5287(2010)02-0161-04

2009-11-16

刘小鸿 (1978-),男,福建泉州人,讲师,教育技术学士,主要研究方向:影视媒体制作与应用研究,网络媒体制作等。

猜你喜欢
关键字搜索引擎网页
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
基于HTML5与CSS3的网页设计技术研究
世界表情符号日
成功避开“关键字”
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究
网络搜索引擎亟待规范
基于Lucene搜索引擎的研究
搜索引擎,不止有百度与谷歌