设为首页收藏本站

爱飞SEO软件 -- 助站长腾飞!!!

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博账号登陆

只需一步,快速开始

从这里开始1.注册账号-->2.下载软件-->3.查看教程-->4.求助咨询 免费使用全部功能 官方qq群:爱飞seo软件交流

搜索
查看: 2087|回复: 1

[教程] 制作采集规则--列表规则

[复制链接]

64

主题

975

好友

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

签到天数: 31 天

[LV.5]常住居民I

151****1798

社区QQ达人 宣传达人

发表于 2012-11-7 16:51:27 |显示全部楼层
列表规则是采集规则的一种,其主要作用是引导软件抓取到文章网址!

我们之前讲过一些采集规则和HTML代码基础知识,请参考 爱飞采集规则基础教程,HTML代码入门

采集规则核心概念是找到特征字符,设置进对应的采集标签内即可,软件会自动分析出有用的字段

制作规则可以从网页上直接设置,下面我们主要分析下相关源代码,理解软件是如何抓取这些字段,便于有些时候进行手工微调。
从源代码中分析,列表网页上的文章网址一般都有规律可循,比如都是同样的样式或具有同样的特征。

我们来分析qq新闻列表页:
  1. http://news.qq.com/l/newsgj/rdzh/guojishishi.htm
复制代码
一、文章网址部分源代码如下(通过代码树可以看得更清楚网页结构)
  1. <div class="mod newslist"><ul><li>·<a target="_blank" href="http://news.qq.com/a/20121107/001783.htm">美佛州暂停计票工作 结果或当地时间7日晚出炉</a> <span class="pub_time">11月07日&nbsp;16:08</span>
  2. </li>
  3. <li>·<a target="_blank" href="http://news.qq.com/a/20121107/001760.htm">奥巴马成功连任 日本政府担心制造业遭打击</a> <span class="pub_time">11月07日&nbsp;15:59</span>
  4. </li>
  5. <li>·<a target="_blank" href="http://news.qq.com/a/20121107/001775.htm">美媒盘点大选中罗姆尼最失败10句话</a> <span class="pub_time">11月07日&nbsp;15:43</span>
  6. </li>
  7. ……
  8. </div>
复制代码
可以看到,文章页超链接都有同样的规律:有序列表代码 <li 后面跟着超链接 <a(当然,我们也可以用网址特征字符  /a/ ),通过采集规则“单元区域”来抓取重复特征的字段
  1. <li
  2. <a
复制代码
有时候通过特征代码,还会抓取到其他并不需要的网址,我们可以设置“有效区域”class="mod newslist" 来限定抓取的范围。

二、翻页相关的源代码
  1. <div class="pageNav">
  2. <span class="na">&lt;上一页</span><strong>1</strong><a href="http://news.qq.com/l/newsgj/rdzh/guojishishi_2.htm">2</a><a href="http://news.qq.com/l/newsgj/rdzh/guojishishi_3.htm">3</a><a href="http://news.qq.com/l/newsgj/rdzh/guojishishi_4.htm">4</a><a href="http://news.qq.com/l/newsgj/rdzh/guojishishi_5.htm">5</a><span class="mor">...</span><a href="http://news.qq.com/l/newsgj/rdzh/guojishishi_80.htm">80</a><a class="f12" href="http://news.qq.com/l/newsgj/rdzh/guojishishi_2.htm">下一页&gt;</a>
  3. </div>
复制代码
为了让规则可以自动翻页,我们还需要找到翻页的特征代码,可以设置为:
  1. >下一页
复制代码
或者,加粗字符 <strong 后面一个超链接<a,不过这个时候可能会取到错误的链接,我们最好设置翻页区域 class="pageNav" 来限定抓取范围
  1. <strong
  2. <a
复制代码
至此,列表规则可以说是初步完成,我们保存规则后,可以通过预览来测试其他列表页,是否抓取正常,尤其是最后一页的翻页是否获取错误。

列表规则为:,这边需要说的是,特征字符每个人找的可能不一样,只需要最终预览测试正常即可。




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博账号登陆

踩过的脚印
已有 1 人评分铜钱 收起 理由
系统奖励 + 1 发帖收益,回帖人越多收益越高

总评分: 铜钱 + 1   查看全部评分

回复

使用道具 举报

13

主题

1

好友

1317

积分

中级会员

Rank: 3Rank: 3

签到天数: 67 天

[LV.6]常住居民II

139****2608

社区QQ达人

发表于 2012-11-7 17:08:19 |显示全部楼层
学习啦!!!
[发帖际遇]: 一个袋子砸在了 802866 头上,802866 赚了 5 铜钱. 幸运榜 / 衰神榜
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博账号登陆

在线客服
视频演示
我的任务

申请友链|手机版|百度|爱飞科技 ( 苏ICP备12032809号 )  

GMT+8, 2020-10-21 03:29 , Processed in 0.277953 second(s), 42 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

更多