文章分类 | 推荐文章 | 最新文章 | 热点文章 | 最新软件 | 精品软件 | 下载排行 | 推荐下载 | 免费看大片 | WPS | 杀毒软件
清风网络
首 页 软件下载 网络学院 数码学院
QQ 电脑入门 游戏 操作系统 图形处理 办公软件 媒体动画 精文荟萃 工具软件 网络编程 程序开发 网络技术 认证考试 网站建设 文章专栏
当前位置:清风网络学院网络编程XML/Soap基于Lucene/XML的站内全文检索解决方案
精品推荐
特别推荐
·跟我学XML和XSL
·XHTML教程,简单认识XHTML基础知识
·XML轻松学习手册
·XSL/XML网页制作入门,入门到精通
·用XML+JSP实现网页内容动态显示的方案
·将XML结点转换成JAVABEAN并存入数据库
·XML入门教程:XML 浏览器支持
·XHTML 1.0:标记新的开端
·什么是 XML Web Service
·什么是XML
·XML技巧五则
·新兴XML处理方法VTD-XML介绍
·一个简单的基于XML的模块集成框架
·XML数据库中几个容易混淆的概念
·用Flash和XML来构造一个聊天室
热点TOP10
·ASP.NET中应用XML技术实现Web报表打印
·XML轻松学习手册
·使用xmldom在服务器端生成静态html页面
·XSLT Designer快速入门指南
·运用CodeSmith代码生引擎生成XML报表文件
·利用XML实现通用WEB报表打印实际使用中的例子
·XHTML三种文件类型声明
·XHTML入门学习教程:框架标签使用
·XML Schema定义元素的基本知识
·XHTML标签写法应该注意的问题
·利用XMLHTTP无刷新添加数据
·如何使用XML实现多渠道接入网站的构架
·XHTML教程,简单认识XHTML基础知识
·常用的XHTML标签的使用技巧介绍
·网页设计学习XHTML应用小结
·XHTML 1.0 参考
·Xml 串行话对象与反串行实例
·XQuery 初学者入门教程:XQuery 术语和语法
·XQuery 初学者入门教程:XQuery FLWOR + HTML
·XQuery 初学者入门教程:XQuery FLWOR 表达式

基于Lucene/XML的站内全文检索解决方案

日期:2006年9月27日 作者: 查看:[大字体 中字体 小字体]


  <item>
    <title>The Artist's Way: A Spiritual Path to Higher Creativity - $11.17</title>
    <link>http://www.amazon.com/exec/obidos/ASIN/1585421464/lockergnomedigit/?ref=nosim&amp;dev-it=D34HUVGKB34YFX</link>
    <description>http://www.lockergnome.com/    </description>
  </item>
  ...
</channel>

IndexRunner -i http://www.example.com/rss.xml -o c:\index -t title,description -n link  -l  4
-l 4 表示拿第4层节点作为字段映射,

IndexRunner还提供了-a -m这两个选项:用于增量索引和批量索引优化。
-a  增量索引,表示在原有索引的基础上扩展
-m  mergeFactor 在Lucene中mergeFactor是一个针对批量索引的优化参数,控制多少条处理完多少条记录(Document)后,写入一次索引,写入频率越高,内存使用越少,但索引速度越慢,所以在大批量数据导入时需要增大文件写入的间隔,多让索引在内存中操作。

搜索结果输出:


以下是系统设计过程中一些设计的思路:

做为工业标准的XML
记得以前有关于肯德基的炸薯条断顿的报道。从这个事件报道中我们可以看到一种更高效的管理体系:对于快餐店这样全球性的企业来说,要保证各地提供的薯条品质,成本最低的方法肯定是依靠机器而不是厨师,如果要求薯条机能够处理各种形状不一的土豆,机器的复杂程度和维护成本都会很高。所以土豆必须严格符合工业标准才能让结构比较简单的薯条机生产出符合标准的薯条,因此,薯条的加工机械会严格按照土豆协会的土豆工业标准设计。高质量的原料可以大大降低后期加工设备的成本,因此从总体成本上讲还是合算的。
对于软件应用开发者来说:应用和应用之间,企业和企业之间交换的数据好比就是土豆,白菜,按照严格的XML标准设计的接口作为企业之间后台数据交换的工业标准,虽然不如简单的CSV格式高效,但缺能大大简化下游工序的后期加工成本。


不难想象为什么处理HTML的浏览器:IE和Mozilla等浏览器软件大小都在10M以上,但一般处理XML的解析器一般都在几百K。除了没有界面外,HTML浏览器需要为太多不规范的HTML代码提供大量容错处理也是一个很重要的原因,而语法严格,规则简单的XML处理器就可以做的很简短,高效,体积越“小”就意味着适应性越广:这点在手机这样的硬件配置比较低的设备环境中显得尤其重要。

虽然XML在后台数据交换方面,有着巨大的潜力。在前台表现方面,XML并不会马上代替HTML,很多通过XSLT输出的HTML仍然需要结合CSS来进行表现。XML ==XSLT==> HTML + CSS。但是由于太多的网页都是用HTML做的,相信XML没有必要马上代替这些已有的机制。

此外在应用的国际化支持方面XML和Java简直是绝配:XML数据源用Java解析后是UNICODE,这样无论是日文,繁体中文还是德文的内容我们都可以在一个索引库中同时进行搜索。这样针对其他语言的支持只是设计各种语言界面的问题了。

      GBK          \                                       / BIG5      BIG5          -  UNICODE        ====>       Unicode -  GB2312      SJIS          -   (XML)                     (XML)   -  SJIS      ISO-8859-1   /                                       \ ISO-8859-1

上一页 [1] [2] [3] [4] 下一页 




上一篇:让Windows文件无法删除提示从此不再出现

下一篇:Google欲推容量无限的网络存储服务

基于Lucene/XML的站内全文检索解决方案 相关文章:
·不用重装XP系统就可以解决全部故障
·笔记本电脑无线上网解决方案大比拼
·XP系统运行慢?小编自用7招解决
·菜鸟学电脑:CTRL+SHIFT不能切换输入法故障解决
·中小企业整体网络安全解决方案解析
·解决与HTTP 500 – 内部服务器错误错误信息有关的问题
·外挂 录象 网站 举报方案最新教程_QQ堂
·办公大楼综合布线系统设计方案--康宁公司布线系统专题
·施工与工程组织方案
·解决注册表被锁问题100%有效的办法
基于Lucene/XML的站内全文检索解决方案 相关软件:
·成功少儿培养方案(上中下)高清晰PDF电子书
·兽血沸腾(全文字版)
·GMAT 解决问题汇编
·基于ASP的网上考试系统
·Cisco 网络安全解决方案
·NoteExpress文献管理与检索 V1.9.1.182 多国语言版
·《空速星痕》(全文字版)
·0racle数据库应用管理解决方案
·96sql优化数据仓库解决方案文档合集
·基于CMM的有效过程改进

特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。
[打印本页] [关闭窗口] 转载请注明来源:http://www.vipcn.net
| 帮助(?) | 版权声明 | 友情连接 | 关于我们 | 信息发布
Copyright 2007 www.vipcn.net All Rights Reserved. 鄂ICP备05000083号Powered by:viphot