- 注册时间
- 2012-6-22
- 最后登录
- 2020-11-29
- 阅读权限
- 200
- 积分
- 18282
- 精华
- 6
- 帖子
- 539
  
签到天数: 31 天 [LV.5]常住居民I 151****1798
|
发表于 2012-11-11 17:11:14
|显示全部楼层
帖子类型的网页和文章类型的区别在于多了具有回复,这些回复区域一般具备相同的特征代码,在爱飞软件中设置为单元区域。
采集规则核心概念是找到特征字符,设置进对应的采集标签内即可,软件会自动分析出有用的字段。
在列表规则中,单元区域是抓取各个文章标题、链接,在正文规则中,单元区域则是配合抓取回复、作者名,单元区域都是为了抓取 重复区块中的内容。
下面分析dz论坛的一个帖子:- http://www.discuz.net/thread-3147028-1-3.html
复制代码 一、分析帖子主题、回复区域内容的HTML源代码
- 主题代码 <td id="postmessage_25670034" class="t_f">
- 一楼代码 <td id="postmessage_25670081" class="t_f">
- 二楼代码 <td id="postmessage_25670133" class="t_f">
- ……
复制代码 可以看到,内容具有共同特征代码 class="t_f",则这个可以设置为 单元区域,并同时设置为 正文(软件会默认获取单元区域为输出内容,如果需要抓取作者名,需要追加到单元区域,设置正文代码避免将作者名也抓到内容中)。
补充:如果是采集文章、评论,文章和评论并没有相同的特征代码,处理方法如下
1.将 文章代码设置在 首贴/文章区域 并同时设置为正文代码
2.将 评论代码设置在 单元区域 并同时设置为正文代码
二、分析帖子主题、回复的作者名的HTML源代码- 主题作者 <a class="xw1" href="http://www.discuz.net/home.php?mod=space&uid=1378995" target="_blank">LaterComer</a>
- 一楼作者 <a class="xw1" href="http://www.discuz.net/home.php?mod=space&uid=1334716" target="_blank">vallkiss</a>
- 二楼作者 <a class="xw1" href="http://www.discuz.net/home.php?mod=space&uid=1334716" target="_blank">vallkiss</a>
- ……
复制代码 可以看到,作者名具有共同特征代码 class="xw1",这这个可以追加设置 单元区域,并同时设置为 作者名。
三、分析翻页区域的HTML源代码
- <div class="pg"><strong>1</strong><a href="http://www.discuz.net/thread-3147028-2-3.html">2</a><a href="http://www.discuz.net/thread-3147028-3-3.html">3</a><label><input type="text" name="custompage" class="px" size="2" title="输入页码,按回车快速跳转" value="1" onkeydown="if(event.keyCode==13) {window.location='forum.php?mod=viewthread&tid=3147028&extra=page%3D3&page='+this.value; doane(event);}" /><span title="共 3 页"> / 3 页</span></label><a href="http://www.discuz.net/thread-3147028-2-3.html" class="nxt">下一页</a></div>
复制代码 需要注意:针对需要采集回复的帖子类型网页,翻页代码需要设置在 下一页代码(同列表下一页,而非正文下一页代码),这边设置 下一页代码 为 class="nxt" 或 >下一页。
|
-
总评分: 铜钱 + 1
查看全部评分
|