文章分类 | 推荐文章 | 最新文章 | 热点文章 | 最新软件 | 精品软件 | 下载排行 | 推荐下载 | 免费看大片 | WPS | 杀毒软件
清风网络
首 页 软件下载 网络学院 数码学院
QQ 电脑入门 游戏 操作系统 图形处理 办公软件 媒体动画 精文荟萃 工具软件 网络编程 程序开发 网络技术 认证考试 网站建设 文章专栏
当前位置:清风网络学院网络编程XML/Soap新兴XML处理方法VTD-XML介绍
精品推荐
特别推荐
·跟我学XML和XSL
·XHTML教程,简单认识XHTML基础知识
·XML轻松学习手册
·XSL/XML网页制作入门,入门到精通
·用XML+JSP实现网页内容动态显示的方案
·将XML结点转换成JAVABEAN并存入数据库
·XML入门教程:XML 浏览器支持
·XHTML 1.0:标记新的开端
·什么是 XML Web Service
·什么是XML
·XML技巧五则
·新兴XML处理方法VTD-XML介绍
·一个简单的基于XML的模块集成框架
·XML数据库中几个容易混淆的概念
·用Flash和XML来构造一个聊天室
热点TOP10
·ASP.NET中应用XML技术实现Web报表打印
·XML轻松学习手册
·使用xmldom在服务器端生成静态html页面
·XSLT Designer快速入门指南
·运用CodeSmith代码生引擎生成XML报表文件
·利用XML实现通用WEB报表打印实际使用中的例子
·XHTML三种文件类型声明
·XHTML入门学习教程:框架标签使用
·XML Schema定义元素的基本知识
·XHTML标签写法应该注意的问题
·利用XMLHTTP无刷新添加数据
·如何使用XML实现多渠道接入网站的构架
·XHTML教程,简单认识XHTML基础知识
·常用的XHTML标签的使用技巧介绍
·网页设计学习XHTML应用小结
·XHTML 1.0 参考
·Xml 串行话对象与反串行实例
·XQuery 初学者入门教程:XQuery 术语和语法
·XQuery 初学者入门教程:XQuery FLWOR + HTML
·XQuery 初学者入门教程:XQuery FLWOR 表达式

新兴XML处理方法VTD-XML介绍

日期:2006年10月2日 作者: 查看:[大字体 中字体 小字体]


序言

本文所提及的VTD-XML并非本文作者原创,作者只是对它进行介绍。

问题

通常当我们提起XML的使用时,最头痛的部分便是XML的verbosity与XML的解析速度,当需要处理大XML文件时这个问题便变得格外严重。我在这里提及的,便是如何优化XML处理速度的话题。

当我们选择处理XML文件的时候,我们大致上有两种选择:

DOM,这是W3C的标准模型,它将XML的结构信息以树形的方式构建,提供了遍历这颗树的接口与方法。
SAX,一种低级的parser,逐元素的向前只读处理,不含有结构信息。
以上两种选择都各有利弊,但是都不是特别好的解决方案,它们的优缺点如下:

DOM

优点:易用性强,因为所有的XML结构信息都存在于内存中,并且遍历简单,支持XPath。
缺点:Parsing速度太慢,内存占用过高(原文件的5x~10x),对于大文件来说几乎不可能使用。
SAX

优点:Parsing速度快,内存占用不与XML的大小相联系(可以做到XML涨内存不涨)。
缺点:易用性差,因为没有结构信息,并且无法遍历,不支持XPath。如果需要结构的话只能读一点构造一点,这样的可维护性特别的差。
我们可以看出,基本上DOM与SAX是正好相反的两个极端,但是任何一个都不能很好的满足我们的大部分要求,我们需要找出另外一种处理方法来。注意XML的效率问题并不是XML本身的问题,而是处理XML的Parser的问题,就像我们在上面看到的两种方法有不同的效率权衡一样。

思考

我们很喜欢类似DOM的使用方法,因为我们可以遍历,这意味着可以支持XPath,大大增强了易用性,但是DOM的效率很低。就像我们已经知道,效率问题出在处理机制上。那么,DOM到底有哪些方面影响了它的效率呢?下面让我们来做一个全面的解剖:

在当今大多数基于虚拟机(托管,或任何类似机制)技术的平台下,对象的创建销毁是一个耗时的作业(这里值得主要是Garbage Collection的耗时),DOM机制中所运用的大量的对象创建销毁无疑是影响其效率的原因之一(会引发过多的Garbage Collection)。
每个对象都会额外有32bits用来存储它的内存地址,当像DOM一样拥有大量对象的时候这个额外开支也是不小的。
引起以上两个问题的最主要的效率问题在于,DOM与SAX都是extractive parsing模式,这种解析模式注定了DOM与SAX都需要大量的创建(销毁)对象,引起效率问题。所谓的extractive parsing就是说在解析XML时,DOM或SAX会提取一部分原文件(一般来说是一个字符串),然后在内存中进行解析构建(输出自然就是一个或一些对象了)。拿DOM这个例子来说,DOM会将每一个element, attribute, processing-instruction, comment等等都解析成对象并给与结构,这就是所谓的extractive parsing。
由extractive的问题带来的另一个问题便是更新效率,在DOM中(SAX因为不支持更新所以根本不提它),每一次需要做改动时,我们要做的就是将对象的信息再解析回XML的字符串,注意这个解析是个完整的解析,也就是说,原文件并没有被利用,而是直接将DOM模型重新完整解析成XML字符串。换句话讲,也就是DOM并不支持Incremental Update(增量更新)。
另一个很可能不被注意到的“小”问题便是XML的编码,无论是何种解析方法都需要能够处理XML的编码,也就是说,在读取的时候解码,在写入的时候编码。DOM的另一个效率问题便是当我对于一个大XML只想做很小的一块儿修改的时候它也必须首先将整个文件进行解码,然后构建结构。无形中又是一个开销。
让我们来总结一下问题,简单的讲DOM的效率问题主要出在它的extractive parsing模式上(SAX也是一样,有同样的问题),由此引发了一系列相关问题,如果可以击破这些效率瓶颈的话那么可以想象XML的处理效率将进一步的得到提高。如果XML的易用性与处理效率得到飞跃性的提高的话,那么XML的应用范围,应用模式将得到更一步的升华,或许由此可以产生出许许多多精彩的以前连想都没有想过的基于XML的产品来。

出路

VTD-XML便是对以上问题的思考后给出的答案,它是一个non-extractive XML parser,由于它出色的机制,很好的解决(避免)了上面所提出的各种问题,并且还“顺便”带来了non-extractive的其他好处,像快速的解析与遍历、XPath的支持、Incremental Update等等。我这里有一组数据,取自于VTD-XML的官方网站:

VTD-XML的解析速度是SAX(with NULL content handler)的1.5x~2.0x。With NULL content handler的意思就是说SAX解析中没有插入任何额外的处理逻辑,也就是SAX的最高速度。
VTD-XML的内存占用是原XML的1.3x~1.5x(其中1.0x的部分是原XML,0.3x~0.5x是VTD-XML占用的部分),而DOM的内存占用则是原XML的5x~10x。举一个例子,如果一个XML的大小是50MB,那么用VTD-XML读取进来内存占用会在65MB~75MB之间,而DOM的内存占用则会在250M~500MB之间。基于这个数据用DOM处理大的XML文件几乎是不可能的选择。
你可能会觉得不可思议,真的可以做出比DOM易用性还好,比SAX还快的XML解析器吗?别急着下定论,还是来看看VTD-XML的原理吧!

基本原理

就像大多数好的产品一样,VTD-XML的原理并不复杂,而是很巧妙。为了实现non-extractive这个目的,它将原XML文件原封不动的以二进制的方式读进内存,连解码都不做,然后在这个byte数组上解析每个element的位置并把一些信息记录下来,之后的遍历操作便在这些保存下来的record上进行,如果需要提取XML内容就利用record中的位置等信息在原始byte数组上进行解码并返回字符串。这一切看起来都很简单,但是,这个简单的过程确有多个性能细节在里边,并且隐藏了若干个潜在的能力。下面我们首先来描述一下各个性能细节:

为了避免过多的对象创建,VTD-XML决定采用原始的数值类型作为record的类型,这样就可以不必用heap。VTD-XML的record机制就叫做VTD(Virtual Token Descriptor),VTD将性能瓶颈在tokenization阶段就解决掉了真的是很巧妙很用心的做法。VTD是一个64bits长度的数值类型,记录了每个element的起始位置(offset),长度(length),深度(depth)以及token的类型(type)等信息。

[1] [2] 下一页 




上一篇:SQLServer和Oracle常用函数对比

下一篇:那数组存入application,再利用循环读出来

新兴XML处理方法VTD-XML介绍 相关文章:
·求职面试自我介绍一分钟
·常用图片格式介绍
·介绍:QQ客户管理系统的功能
·IBM WebSphere课程介绍
·详细介绍优化SQL Server 2000的设置
·Firefox十大特色扩展全介绍(上)
·“芯”要让你看见系列之---VIA主板芯片组介绍
·《心跳美女》介绍 - 手机游戏攻略秘籍 - 手机游戏
·aspjpeg组件高级使用方法介绍
·黑客入侵指定网站的一些方法介绍
新兴XML处理方法VTD-XML介绍 相关软件:
·《苍天》偃月刀操作方法介绍视频
·BBC纪录片:战争的困惑 RMVB 其他介绍
·西门子plc软件及教程 文件类型 其它介绍
·《苍天》双手大刀操作方法介绍视频
·地球帝国3介绍视频
·中国8大菜系介绍及其他
·jdk工具介绍
·C# 程序员介绍(英文版)
·法硕复习资料文字部分之备考指南及复习方法介绍
·同等学历计算机课件 介绍

特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。
[打印本页] [关闭窗口] 转载请注明来源:http://www.vipcn.net
| 帮助(?) | 版权声明 | 友情连接 | 关于我们 | 信息发布
Copyright 2007 www.vipcn.net All Rights Reserved. 鄂ICP备05000083号Powered by:viphot