这几天有几个朋友PM我,希望落伍可以看到有易采程序的教程,今晚,就把一些基础的教程综合起来发布吧!首先在这里先引用Neat Collector官方论坛上转载的由gymal发布的关于采集的原理,这样可以让大家先更好的了解到采集程序的本质! 由于时间紧促,这次先发采集基础教程,如果大家用起来顺心的话,过段日子再综合官方的导入教程,发布出来学习一下啦~
大家知道一些大的网站处理文展都是用一些后台程序进行的,用数据库保存,因此他们生成的文章也是有规律的,一般包括[标题][内容],不可能连这两样都没有吧,当然还有文章的连接地址,不然我们怎么连接到那篇文章(这个我们在浏览器的地址栏可以看到),但后台不同,他们存放[标题][内容]的方式就不同,一般[标题]都是</title>aaaa</title>这种方式,由于"高手"太多,他们存放内容的地方就很多样了,但基本都会放在<td>bbbbbb</td> 一个表格中的, 收集器就把这些不确定一样的[标题][内容]当作变量提取出来,让大家在要收集的网站中找到它的设置特点,然后把这些特别的标记放到收集器的设置[标题][内容]等区域,实现对不同网站的收集.
易采Neat Collector程序下载地址 点击下载
程序可以在本地PHP环境中运行,具体安装要求可以参考程序安装说明~ 以下,转载易采官方walker写的一篇简易采集教程~~~(目标网页内容可能有变,请大家留意改动的部分~) 这次,我们的目标是:http://www.yetao.net/ytdzq/ (叶滔大证券) 1.首先,我们登陆NEAT Collector。 2.然后,点菜单中的“添加采集器”。 3.用浏览器打开 http://www.yetao.net/ytdzq/ 这个网址。 4.查看他的源代码 5.随便找个新闻标题,比如“首次网络投票震撼中国股市” 6.我们找到如下代码
<table border=0 width=99%><tr><td width=20 valign=top> 1. </td><td><a href='/article2/263/2004-12-24/92052.htm' target=_blank><font color=blue>首次网络投票震撼中国股市</font></a> <font size=2 color=red><i>(2604) </i></font></font></td></tr><tr><td width=20 valign=top> 2. </td><td><a href='/article2/284/2004-12-24/92094.htm' target=_blank><font color=blue>12月24日早晨策略</font></a> <font size=2 color=red><i>(1589)
7.我们把范围缩小到下面一行
1. </td><td><a href='/article2/263/2004-12-24/92052.htm' target=_blank><font color=blue>首次网络投票震撼中国股市</font></a>
8.开始找文章的连接和标题
连接 [ode] /article2/263/2004-12-24/92052.htm [/code]
标题
首次网络投票震撼中国股市
9.在这里,我们将会使用到三个系统标签。我先来说明一下
[变数] :不确定的,但是又不需要的数据 (用于容错,可以出现多次) [标题] :文章的标题 (只能出现一次) [连接] :文章的连接 (只能出现一次)
10.我们把上面取得的HTML代码用标签替换。
连接:“/article2/263/2004-12-24/92052.htm”替换成系统标签 “[连接]” 标题:“首次网络投票震撼中国股市” 替换成系统标签 “[标题]”
上一篇:Google Pr 欺骗
下一篇:用.NET获取汉字的区位码
|