XML语言在网页中的应用

2010-08-15 00:42乔惠萍山西建筑职业技术学院计算机工程系山西030006
网络安全技术与应用 2010年11期
关键词:浏览器网页文档

乔惠萍山西建筑职业技术学院计算机工程系 山西 030006

0 引言

互联网的飞速发展使得 Internet成为人们快速获取、发布和传递信息的重要渠道,并在人们生活中的各个方面扮演着重要的角色。在互联网上发布信息主要是通过网站来实现的,网站是由网页构成的,是一系列相互关联的网页的集合。而网页又是由各种各样的网页元素构成(文本、图像、动画、音频、视频)的,各种元素如何合理的分布在网页上?网页上的内容又是如何发布到互联网上,使得千千万万的用户在自己的计算机上都能看到同样的内容呢?

为了在互联网上发布信息,需要一种所有计算机都能够理解的“出版”语言,这就是国际标准ISO8879—标准通用标记语言(Standard Generalized Markup Language, SGML)。

现在互联网网页文档很多是用超文本标记语言(HyperText Markup Language, HTML)编写的,HTML可以看做是SGML的实际应用。

1 超文本标记语言 HTML

HTML与其他高级语言(如C语言等)不同,它不是一种程序设计语言,而是一种页面(Page)语言,在某种程度上和排版语言类似。制作HTML文档时需要加入一些标记(Tag),用于说明一些段落、标题、图像、字体等。当用户通过Web浏览器阅读HTML文档时,浏览器负责解释插入文档中的各种标识,并以此为依据显示文档的内容。

HTML语言同3W(World Wide Web)在上世纪90年代成为Internet的正式标准,所有的 Web浏览器都支持HTML语言,所有用户用不同的浏览器中都能显示相同的页面。今天,HTML文档已经可以跨越不同的浏览器和平台,发展成为一种所有设备(例如,个人计算机、移动电话、手持设备、语言输入输出设备等)都可以使用的万维网语言。

1.1 HTML语言结构

HTML的文档是ASCII文件,没有任何特殊格式,可以使用任何编辑器编辑即使像Notepad如此简单的软件。通常HTML的文档由文档头(head)、文档名称(title)、文档主体(body)、段落(paragraph)等成分组成。下面是一个简单的HTML文档:

<HTML>

<HEAD>

<TITLE>HTML文件结构</TITLE >

</HEAD>

<BODY>

<H1> 欢迎访问我的网站!</H1>

<p>这是一个HTML文件实例</p>

</BODY>

<HTML>

HTML文档按多级标题结构进行组织,由<HTML>开始,以</HTML>结束。每个 HTML文档由文档头(head)和正文(body)组成,并分别用<HEAD>…</HEAD>和<BODY>…</BODY>来标记。文档头标签<HEAD>…</HEAD>之间使用<TITLE>…</TITLE>包含文档的名称。正文标签<BODY>…</BODY>之间含有各种 HTML标签作标记的段落、列表和其他文档元素组成的实际文档。

1.2 超文本链接

HTML的一个重要特性是超文本链接。通过在文件内创建“热”区,使用户用鼠标点击热区能跳转到其他网页、本地文件或页面上其他区域。这样使得以往平面文档的线性浏览方式改变成为一种立体文档,具有非线性浏览功能。

1.3 XHTML

XHTML与HTML文档最主要的不同如下:

(1)XHTML元素必须被正确地嵌套。

(2)XHTML元素必须被关闭,非空标签必须使用结束标签,空标签也必须使用结束标签,或者其开始标签必须使用/>结尾。

(3)标签名必须用小写字母。XHTML规范定义标签名和属性对大小写敏感。

(4)XHTML文档必须拥有根元素。所有的XHTML元素必须被嵌套于<html>根元素中,其余所有的元素均可有子元素。子元素必须是成对的,且被嵌套在其父元素中。

(5)属性名称必须小写,不能简写。(6)用ID属性代替NAME属性。可以看出XHTML比HTML要更严格。

2011年2月11日,辽宁省委、省政府出台了《关于贯彻落实〈中共中央国务院关于加快水利改革发展的决定〉的实施意见》(以下简称《实施意见》),对加快辽宁水利改革发展作出了全面部署,提出力争通过5~10年的努力,到2020年进一步增强水利支撑经济社会发展的能力,基本建成防洪抗旱减灾体系、“东水济西”水资源配置格局和高效利用体系、水资源保护及江河流域健康保障体系和有利于水利科学发展的制度体系。

2 可扩展标记语言 XML

2.1 XML概述

与HTML一样,XML(Extensible MarkupLanguag)也源自SGML,HTML有固定标记集合,有着规定不变的格式,而XML实际上是一种定义语言,使用者可以用XML自己定义各种标记来描述文件中的元素。

XML与HTML的区别主要是:

(1)HTML是用来显示数据,重点是‘如何显示数据’。

(2)XML可以用来描述数据,重点是‘数据是什么’。

(3)XML是一种类似于 HTML的标记语言,但 XML的标记不是在XML中预定义的,你必须定义自己的标记。

(4)XML使用文档类型定义(DTD)或者模式(Schema)来描述数据。

(5)XML使用DTD或者Schema后就是自描述的语言。

XML包含3个要素:文档定义(DTD/XML Schema)、可扩展样式语言XSL(eXtensible Stylesheet Language)和XLink。DTD规定XML文件的逻辑结构,定义了XML文件中的元素、元素的属性和属性之间的关系;XSL是规定XML文档样式的语言,它可以在客户端使Web浏览器改变文档的表示法,而不与服务器进行交互通信;XLink将进一步扩展当前Web上已有的简单链接。

XML的应用一般可分为四种:

① 客户需要与不同的数据源进行交互,使用XML解决数据的统一接口问题。

来自不同数据库的数据有各自不同的格式,而客户与这些数据库间只能用一种标准语言进行交互,就是XML。XML的自定义性及可扩展性,使得可以表达各种类型的数据。

② 大量运算负荷分布在客户端,服务器只需发出同一个XML文件。

传统的“客户/服务器”工作方式中,客户向服务器发出不同的请求,服务器会分别进行响应,这就需要网络管理者事先调查各种不同的用户需求以做出相应不同的程序,无形中加重了服务器本身的负荷。假如用户的需求繁杂多变,所有业务逻辑集中在服务器端是不合适的,服务器端的编程人员可能满足不了众多的应用需求,也来不及跟上需求的变化。应用XML可以将处理数据的主动权交给客户,服务器所作的只是尽可能完善、准确地将数据封装进XML文件中,从而使广泛、通用的分布式计算成为可能。

③ 网络代理编辑、增减所取得的信息以适应个人用户的需要。

有些客户取得数据并不是为了直接使用而是为了根据需要组织自己的数据库。如学校建立了一个题库,考试时可将题库中的题目抽出若干组成试卷,再将试卷封装进 XML文件发送给考生。

④ 同一数据以不同的面貌展现给不同的用户。

如可以用电视剧、电影、话剧和动画片等不同形式表现同一个剧本。

XML可以使数据制作者不必考虑数据的用途,而只考虑有可能会被用到的信息,并将其完整、规范地制作成 XML文件,服务商也无需拘泥于特定的脚本语言、制作工具等,只需提供标准化、可独立销售、有级别操作的领域,从而最大限度地满足客户的需求。

2.2 XML Schema

微软的Schema成为现在的W3C定义的Schema的原型。但是W3C发展了一套不同于 DTD方法来定义XML数据类型,并给出了自己的定义。

Schema是一种描述信息结构的模型,它是借用数据库中一种描述相关表格内容的机制,为一类文件树立了一个模式,该模式规范了文件中tag(标签)和文本可能的组合形式。例如,一本书的相关信息可以表示为:

<BOOK>

<TITLE>WEB应用程序设计</TITLE>

<AUTHOR>乔惠萍</AUTHOR>

<PUBLISHER>机械工业出版社</PUBLISHER>

<PRICE>RMB 24.00</PRICE>

</BOOK>

进行Schema的检查过程是:一本书的信息包括书名、作者、出版社等。在 Schema中规范了内容的模式限制和数据类型限制,前者用来规定文件中element(元素)的顺序,后者用来限制数据单元的合法性。

2.3 XSL

HTML网页使用预先确定的标识(tags),对所有的标记都有明确的含义,而XML没有固定的标识,需要用户自己建立标识,所以浏览器不能自动解析它们。XML文档没有一个标准的办法来显示。为了显示 XML文档,可以使用 XSL(eXtensible Stylesheet Language)样式语言。

XSL由两部分组成:一是转化XML文档;二是格式化XML文档。

2.4 Xlink

Xlink是说明如何在网络上做到识别、定址及连接的规格文件。Xlink一个重要功能是建立“topicmaps”。Topicmaps允许不同的资料有外在的注解(External Annotation)。

Xlink定义了几种常用的连接型态:

① Simple:类似在HTML内a标记的用法。

② Extended:用法包含arc和locator的元素,并允许各种类的扩充连接。

③ Group和Document:让群组连接到一些特别的文件。

因此,在当前最新的.NET平台下,XML以其描述简单、功能强大、跨平台等特点被广泛应用在各种领域,逐渐成为一种新的网络数据处理方式。在网站中常被用来存储临时数据、配置信息或者列表详情等,使用XML有效减少了与数据库的交互次数,提升了服务器的访问性能和速度。

[1]许卓鸣,刘琴.基于关系数据库的XML存储技术评述[D].南京:东南大学硕士学位论文.2003.

[2]赵英.组织 Web资源的新的标识语言—xML[J].图书馆杂志.2000.

[3]林甫.试析常用于数字图书馆中数据交换与处理的三种数据格式的标识语言(SGML、HTML、XML)的异同性.现代情报.2002.

[4]韩利芳.可扩展标记语言及其应用.电讯技术.2009.

猜你喜欢
浏览器网页文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
基于HTML5与CSS3的网页设计技术研究
反浏览器指纹追踪
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究
基于RI码计算的Word复制文档鉴别
环球浏览器
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat