文章分类 | 推荐文章 | 最新文章 | 热点文章 | 最新软件 | 精品软件 | 下载排行 | 推荐下载 | 免费看大片 | WPS | 杀毒软件
清风网络
首 页 软件下载 网络学院 数码学院
QQ 电脑入门 游戏 操作系统 图形处理 办公软件 媒体动画 精文荟萃 工具软件 网络编程 程序开发 网络技术 认证考试 网站建设 文章专栏
当前位置:清风网络学院网站建设Html解析Html页面:HTML Parser的试用
精品推荐
特别推荐
·用CSS控制浏览器的滚动条
·marquee标记的用法
·HTML语言:什么是Unicode 什么是UTF-8
·XHTML编写网页代码的七条基本规范
·HTML和XHTML的区别
·HTML语言:什么是Unicode?什么是UTF-8?
·HTML 和 XHTML 区别
·HTML标记全集
·分析比较:三种简洁的Tab导航简析
·HTML教程-HTML简介
热点TOP10
·document.execCommand() 解析
·学习网页设计时要注意HTML向XHTML转化
·使用HTML+CSS编写灵活的Tab页
·图片左右循环连续滚动代码,解决marquee的留白问题
·MyHTML Player release v1.1
·首页用户登陆模板
·页面显示问题
·科汛供求管理系统介绍
·下拉列表框1下拉列表框2(HTML版)
·CSS:font-weight

解析Html页面:HTML Parser的试用

日期:2008年6月12日 作者: 查看:[大字体 中字体 小字体]


最近在研究lucene的全文检索,在很多地方需要解析或者说分析Html内容或者Html页面,Lucene本身的演示程序中也提供了一个Html Parser,但是不是纯Java的解决方案.于是到处搜索,在网上找到了一个"HTMLParser".

网址是: http://htmlparser.sourceforge.net ,当前版本为1.5.

下载下来,试用一番,感觉不错,完全能满足lucene解析Html的需求.

过几天贴出lucene进行全文检索的代码.(检索本站的文章等).

试用代码如下,供大家参考:

package com.jscud.test;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.nodes.TextNode;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;
import org.htmlparser.visitors.TextExtractingVisitor;

import com.jscud.util.LogMan; //一个日志记录类

/**
 * 演示了Html Parse的应用.
 *
 * @author scud http://www.jscud.com
 */

public class ParseHtmlTest
{

    public static void main(String[] args) throws Exception
    {
        String aFile = "e:/jscud/temp/test.htm";

        String content = readTextFile(aFile, "GBK");

        test1(content);
        System.out.println("====================================");

        test2(content);
        System.out.println("====================================");

        test3(content);
        System.out.println("====================================");

        test4(content);
        System.out.println("====================================");

        test5(aFile);
        System.out.println("====================================");

        //访问外部资源,相对慢
        test5("http://www.jscud.com");

[1] [2] [3] [4] [5] [6] 下一页 




上一篇:HTML特殊字符:补遗

下一篇:网页添加背景音乐

相关文章:
·Windows系统进程列表完全解析
·[宠物]问道宝宝,肉盾,法宠,攻宠全面解析
·卡巴斯基7.0简体中文正式版试用
·电脑使用一段时间后会变慢原因解析
·以Flash动画作网站引导页面是不是真的需要呢?
·document.execCommand() 解析
·卡巴斯基2009 Beta版 初步试用感受
·Google Earth官方中文版试用(新增宇宙遨游功能)
·网页设计心得:页面布局的简单规则
·CSS在IE与Firefox下不同的解析及解决方案
相关软件:
·绘声绘影10汉化版 iso 最新试用
·2005版监理考试用书-概论
·软景HTML制造机(Softscape HTML Builder)V2.0
·HTML Builder XPV5.6
·2005版监理考试用书-信息管理
·计算机编程与实例解析系列丛书
·超级域名解析软件 (17395DNS设置工具)
·Txt2Html V2.6.6 +注册机
·铁拳机甲(Marsworth) 试用版
·HTML2TXT V4.1 汉化版

特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。
[打印本页] [关闭窗口] 转载请注明来源:http://www.vipcn.net
| 帮助(?) | 版权声明 | 友情连接 | 关于我们 | 信息发布
Copyright 2007 www.vipcn.net All Rights Reserved. 鄂ICP备05000083号Powered by:viphot