XML原理与应用 XML原理与应用

XML原理与应用

  • 期刊名字:哈尔滨商业大学学报
  • 文件大小:292kb
  • 论文作者:胡师彦
  • 作者单位:北京中关村东辰科学技术研究所
  • 更新时间:2020-06-12
  • 下载次数:
论文简介

第17卷第4期哈尔滨商业大学学报2001年12月Journal of Harbin University of Commerce Natural Sciences EditionDec.2001文章编号:1004-184(2001)4-0055-03XML原理与应用胡师彦北京中关村东辰科学技术研究所北京100080)摘要介绍了XML的定义特点。结合搜索引擎讨论了XML的应用。最后分析了XML的未来发展。关键词ⅹML搜索引擎HTML中图分类号IP311文献标识码Principle and application of XML(Beijing Dongchen Institute of Science and Technology, Beijing 100080, ChiAbstract: The definition and characteristics of XML are described. The application of XMLKey words: XML; search engine; HIM c development trend of XMl is analyzedin search engine is discussed. In the end, the1XML的定义及原理了比传统的SGML和HTML环境强得多的对文档过程和设计的控制能力XMI( Extensible Markup Language可扩展标签HTML是Web史上最成功的文档格式它具语言是SGML的一个子集。其目标是能够以目前有易学性和通用性,语法简单精练,如果你只希望的HIML可能实现的方式在Web上使用、接受和显示一些文本信息HML就足够了。但是很多处理通用 SGML XML的设计目标是实现简便并比较特殊或专门格式的文件采用现有的HTML语且能与SGML和HTML共同操作。XML将使网言是无法处理的如数学公式、化学方程式及工程上的信息查询、数据交换更加便利帮助人们获得应用等等。HIML的语法过于简单,它使用的是需要信息发掘Web上的财富。套固定的标签集用户不能改动这使得HTML越SGMI( Standard Generalized Markup Language)来越不堪重负是一种标准的通用标签语言用于描述文件及其格HTML和XML都是用一对相互匹配的起始式。1986年国际标准化组织(ISO)发布了SGML和结束标记符来标记信息。它们之间的显著差别在标准正式正式文本 SGML ISO8897:1986,使于HTML描述的是数据处理显示方式,而XMLSGML成为通用的描述各种电子文件的结构及內描述的是数据的本身,它突破了HTML固定标记容际标准。HTML是从SGML衍生出来的一种简集合的约束用户可以根据需要定义任何一种标签单的标签语言,在 Internet和wwW迅猛发展的来描述文档中的数据元素。XML将改变浏览器显推动下 HTML成为Web页面制作的标准。与示、组织、搜寻信息的方式而且克服了HTML链HIML相似XML也是SGML的一个子集,它免接容易断开的缺点。除了SGML繁杂并保持了SGML的优秀特性,可ⅹML最重要的特征是:被标记的各个数据是以方便地运用到web开发上给web制作者提供保持其含义的因此系统间交换数据的可能性极大收稿日期2001-09-10作者简介胡师彦(1979-)男工程师主要研究方向软件工程人工智能。中国煤化工CNMHG哈尔滨商业大学学报(自然科学版)2001年提高。XML最基本的概念是措结构化标记数据吲4)定义调用外部处理器的API。由于XML文实现”文档结构化″的语言规范,即采用DID档是结构化的如果使用ⅹML外部处理器也可Document Type Definition,文档格式定义)文档正确地取岀所需要的数据。但在使用ⅹML文档全类型定义的语方标准。部应用中用来组成XML处理器的难点在于代价1.1XML的结构化文档技术过高。因此对从应用程序调用ⅹML处理器的接口我们知道HIML语言中文档标记Tag”<"或做了规定。这种API应用程接囗称为DOM文档所包容的内容和普通的文本是混在一起的,对象模型方法,在用DOM方法确定API的标记HTML文档中的标记所表示的内容是预先由标准中,可以采用对象管理组OMG规定的 CORBA确定的,标准以外的标记內容不能使用。但对于(公用对象需求代理体系所确定的IL接口定义XML来说,标记Tag可以根据用户要求来定义标语言记的含义。1.2强化的WwW表现能力2ML的特点ⅹML能够超过HTML的表现能力文档显示XML具有以下四个主要特点的方式可根据用户要求而改变具有变换显示”1)简单性XML为程序员和文档作者提供了的能力。个友好的环境。XML的严格定义和规则集使人1)采用XSL确定显示方式。ⅩML文档和类和机器都能更容易地阅读文档。XML文档语法DTD文件中没有标记显示方式的信息,当要在包含一个非常小的规则集使开发者能立刻开始工ⅹML文档元素内容中表示显示方式时,采用ⅹSL作。根据文档的结构DTD既可以通过一个标准过( XML Style Language)语言描述的XSL文体表程创建也可以由专家创建。( XSL Style Sheet)实现。在XSL中定义了二种方ⅩML文档建立在基本嵌套结构的一个核心集式:一种是把原来ⅹML文档的树结构变换为其它的基础之上。当一层又一层的细节被增加使结构树结构的规则,从而使文档的显示变为用户所需变得越来越复杂时作者或开发者只需要为内部结要的内容;另一种方法是使变换后的树结构具有构的复杂化付岀非常少的努力。这些基本结构可以词典用语的含义。变换后的树结构用 HTML形式被用来代表复杂的信息集合而不需要改变结构自定义时用词典指定HTML标记。使用ⅹSL方法身。XML的语法分析器也非常容易创建。时同一文档可完成多种表达变换能实现各种显2)可扩展性XML在两个意义上是可扩展示内容。由于同一文档可表现不同的XSL文体表,的。首先,它允许开发者创建他们自己的DTD有因此在WwW页面中可显示由表或图形图片等效地创建可被用于多种应用的可扩展的”标志集。构成的画面。其次使用几个附加的标准您可以对XML进行2)变换为HTML方式以适应当前主流。一般扩展这些附加标准可以向核心的ⅹML功能集增有两种显示XML文档的方法:一种方法是由加样式、链接、和参照能力。作为一个核心标准XML文档和XSL文体表生成显示画面的布局并XML为可能产生的别的标准提供了一个坚实的基装入客户端机器;另一种方法是装入服务器端。础3)用ⅩIink来定义灵活的连接。通过XML3)互操作性ⅹML可以在多种平台上使用进行的连接可具有HIML所没有的功能。在而且可以用多种工具进行解释。因为文档的结构是HIML文档中可使用URL唯一资源定位器来连相容的所以解释它们的语法分析器就可以以较低接。连接的目的地采用由HIML标准确定的目的的费用建立。XML支持用于字符编码的许多主要标记锚”作为指定URL的目标( Target)在浏览标准,允许它在全世界许多不同的计算环境中使器中用鼠标点击后,则作为目标所指定的HTML用。XML对Jaa进行了很好的补充,许多早期的文档内容而显示在浏览器中。ⅩML文档具有的连XML开发是用Java进行的。一个用于语法分析器接功能称为”ⅹLink”,它可实现更高级的连接设的普通的应用程序接口一XML的简单API置,如作为目标使用则可以指定ⅩML文档元素。(SAX),可以免费获得。也可获得用C++、CXLink对指定目标的显示方法由XSL文体形式来 Java Script.、Tdl和 Python等编写的语法分析器。目规定。前XML语法TH中国煤化工费的插件CNMHG第4期胡师彦XML原理与应用plug-i)上这些插件为ⅹML应用提供了语法分的有效手段。如果说HIML提供了显示全球数据析能力极大地降低了使用XML的费用。的通用方法那么XML进一步提供了处理全球数4)开放性尽管还有一些关于ⅹML的疑问,据通用方法。XML继承了SGML的强大功能又但标准自身在Web上却是完全开放的,可以免费充分采取了HTML的易用"原则。它使工业界能获得。W3C组织的成员已经较早地得到了这些标够定义平台无关的数据交换协议特别是电子商务准不过一旦此标准完成了結结果就是大家都可获中数据交换协议。资源标注、编目和描述是信息查找基础结构化的资源(XML厢和资源的描述框架XML文档自身也较为开放,任何人都可以对(RDF冱互相配合将大大提高信息查找效率。XML结构良好的ⅹML文档进行语法分析如何提供简化元数据的提取工作,从而协助人们寻找信息,了DTD还可以校验这个文档。虽然开发者可以建并协助信息生产者和信息消费才的相互发现。如果立语意模糊的DTD或以自己的方式加密数据但说在网络的支持下HTML语言解决了在异构平他们将会失去使用XML的许多好处。XML并不台间传送数据和文档那么基于XML的VRML禁止创建私有格式但它的开放性是它最大的优点和SMIL解决了在异构平台间传送感受的可能性问题。使用XML人们可以利用设备的智能去访问3ⅹML与搜索引擎不同的网站并对信息进行集中。ⅹML使我们将控制信息的权利交给那引起需要信息的人们。由于所随着 Internet规模的迅速增长网络上的信息有文件都以XML格式存在所有的用户都可以方资源也随之迅速膨胀。WWW资源的膨胀固然得便地査找和使用其中的信息仼何规模的文化机构益于其内的分布性、开放性和异构性但也正是这都可以使用相同的工具与资源。内容供应者、合作点使得用户在网上迅速、准确地获取所需信息伙伴和信息内容消费者可以高效地沟通和共享信变得越来越困难。从总体上说WwW网是繁杂无息这样就创造出了一种全新的协同工作模式。序的。其上的信息缺乏统一的组织与管理没有定的层次目录结构或索引机制所有信息均分款在4XML的未来各个WWW服务器上。如果没有特定的信息搜索XML设计的初衷是作为一种广泛应用于In-技术和工具的支持,仅靠用户手工去查找所需信 ternet的标签语言,但这并不意味着XML将会对息无异于海底捞针。搜索引擎正是为了解决这个Web进行革命或者ⅩML就只能在Web上应用。问题而出现的技术。它以一定的策略在WWW网最终XML可以成为一条把许多应用联系在一起中搜集、发现信息对信息进行理解、提取、组织和的纽带通过分布式应用来处理数据。处理并为用户提供检索服务从而起到信息导航Web将成为XML的起点。XML将和CSs的作用起为开发者提供一种方便、有效的方法来标志XML将使Web的搜索非常方便。ⅹML可扩Web页面。作为一个Web开发系统无论是从使展标记语言是Web数据使用的通用语方,具有结的方便性来讲还是从创建一个大站点所需的时构化、规范性、可扩展性及简洁的特点。ⅩML能让间上来讲ⅩML和CSS就已经比HTML优越很开发人员将来自各种应用程序的结构化数据传送多了。因为CSS允许设计者把精力集中在一个被给桌面以在本地计算和表示。XML允许为特定应任意数目的文档所共享的样式表中的格式信息上用程序创建独特旳数据格式,它还是结构化数据从所以设计乾毎次就只需要从样式表中选取可重复服务器到服务器传输的理想格式。XML是在超级使用的格式信息。在样式表中的格式信息将链接分布式系统之间实现多数据集传输的一种手段。它文档中的ⅹML标签这就使编辑者不需要了解精同时可以使开发人员以更具价值的新型方式聚集确的格式,只需要以内容为基础就可以标记文档和组合各种来源的数据。了。复杂的页面如象许多站点的首页往往需要花XML通过DTD定义了文档的词法、语法和费较多的功夫而很多页面只需要较少的花费就可部分语义ⅹML规定了文档的表现形式而ⅩLink创建。而且因为样式表能集中建立一个站点所需和 XPointer定义了文档之间的关系,从而为基于的所有格式信息因此XML站点实际上比早先的Wcb的名种应用提供了一个描述数据和交换数据HTM站点使H中国煤化工转60页)CNMHG哈尔滨商业大学学报(自然科学版)2001年拆除。由于目的地址被封裝过因此只能采用放手帧格式及其协议的差异程度。不同类型的网络有着帧形式发送帧,这无疑会降低网络带宽的使用率。不同的参数其差错校验的箅法、最大报文分组生如果互联网的规模很大,包含旳网桥和局域网很存周期也不尽相同。例如FDI网络中允许的最多那么广播帧的数目也将增加这样势必会造成大帧长度为4500字节,而在IEEE802.3以太网中不必要的拥挤最大帧长度为1518字节。这样网桥在FDDI向封装式网桥不能通过转换网桥发送数据只有 Ethernet转发数据帧时就必须将FDDI长达4500同一供货商提供的同一种封装式网桥才能一起工字节的帧分割成几个1518字节长度的IEEE8023作也不通过其他供货商提供的封装式网桥传输数协议以太网帧然后再转发到以太网上去这就是据除非其他供货商提供的封裝式网桥也同样使用分帧技术。一些通用的通信协议都定义了类似的控这种专用协议。制帧大小差异的方法(称为包分割方法)反之在2)转换式网桥转换式网桥克服了封裝式网 Ethernet向FDDI转发数据帧时必须将只有1518桥的弊病将需要传输的帧转换成目的网络的帧格字节的以太帧组合成FD)DⅠ格式的帧并以FDDⅠ式然后再上网传输的格式传输这就是帧的重组。还是以 FDDI Ethernet网桥为例,以太网工作对于使用较长报文格式的协议和应用帧的分站要使用连在FDDI上的高性能服务器必须先将割和重组是非常重要的。如果FDDI网桥中没有分Ethernet帧格式转换成FDDⅠ格式帧,然后通过帧和重组功能那么通过网桥互联就无法实现。但FDDI上传输至目的服务器此时服务器接收到的是在协议转换过程中分帧和重组工作必须快速是FDD格式的帧,故不需做仼何改变就可使用。完成否则会降低网桥的性能可见转换式网桥是通用的。任何转换式网桥都能与「参考文献]其他网桥互相通信。蔡昌均.局域网的原理域架构技术[]北京浹民邮电出版社25分帧和重组网际互联的复杂程度取决于互联网络的报文、凹朱元军局域网的组建和维护M北京机械工业出版社201(上接57页)HIML的格式化页面非常有用,许多使用者能自由地阅读XML文档,但浏览器还仅仅是开开始意识到Web站点,只不过是比打印的或传真始。XML为应用程序甚至是基于极为不同的系统的资料有用罢了。尽管可以从一个Web浏览器剪之上的应用程序之间的交流打开了方便之门。只要tcut)粘贴pste)信息XML却向我们展应用程序能(通过HTTP文件共享或别的机制)幅前景——可重复使用的页面内容。使用适当的支共享数据,并拥有一个XML语法分析器它们就持应用程序,一个用户可以从一个文档提取XML可以共享很容易处理的结构信息。数据库之间可以数据,把它们放在他们自己的私有数据存储处使交换表格,商业应用程序之间可以交换更新信息得以后操作这些信息更为容易。这些信息可以包含文档系统之间可以共享信息,站点地图价格清单产品信息或是要以被表示为参考文献]文本的仼何数据。基于内容的XML标志还增强了Ellille Rusty hard.XML实用技术M.北京机械工业出版社搜索能力使得代理商和搜索引擎能把数据分数不1999,103-263胜数而不会把精力浪费在基于内容的全文本搜索2w3c. Extensible Markup Language(XML.hp/ww3og/同时ML的使用不仅仅限于Web页面。|3W3XMLActivity.nttp://www.\3rg/XML/Activity.hXML具有作为一种通用变换格式的潜力,使得不[41 Tim Bary, Beiond HTML: XML and Automated Web Processing,同种类的应用程序之间也能方便地交换数据。scape. com/vinewsource/bray xml. htmlXML浏览器是XML的主要入口,它允许使用者中国煤化工CNMHG

论文截图
版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。