设为首页收藏本站

爱飞SEO软件 -- 助站长腾飞!!!

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博账号登陆

只需一步,快速开始

从这里开始1.注册账号-->2.下载软件-->3.查看教程-->4.求助咨询 免费使用全部功能 官方qq群:爱飞seo软件交流

搜索
查看: 1534|回复: 2

[教程] 制作采集规则--识别区

[复制链接]

64

主题

975

好友

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

签到天数: 31 天

[LV.5]常住居民I

151****1798

社区QQ达人 宣传达人

发表于 2012-11-28 15:41:18 |显示全部楼层
一、识别区的作用
  识别区是爱飞软件采集规则智能识别的关键部分。当对一个网站制作多个规则的时候,可能会出现“识别区冲突”提示,此时需要通过识别区,将规则匹配到对应的网页模板或排除匹配的网页模板。

:一个网页只能匹配一个自编规则,网址也是识别区的识别范围,即使网页内容完全相同,但网址不同,那么也可以制作不同的不同的规则来匹配,这属于比较特殊的应用,比如利用软件将当前网址改写(比如网址后加&***=***或者#***=***,测试访问到的网页还是一样的),这样可以自动调用不同的规则来抓取内容。

二、识别区的识别原理
  目前,爱飞软件规则解释器自动调用规则中的标签特征代码来自动识别并匹配网页模板,也就是说,当规则能从网页中预览获取内容时,表示此规则是网页的规则,此规则将可匹配此网页。

比如qq新闻页 正文标签设置为  id="Cnt-Main-Article-QQ",此标签是qq新闻文章页必然包含的代码,那么这个规则不会匹配其他不包含  id="Cnt-Main-Article-QQ" 代码的网页。

不过当网页源代码特征代码不明显的时候,比如早期的网页都是表格框架式的设计,列表规则也许会匹配到正文页面并获取错误的内容,这个时候就需要手工设置识别区,通过网址或源码中特征代码来进行区分。

三、何时需要设置识别区

   1.保存规则时,软件提示识别区冲突
   2.预览网页时,匹配了错误的规则(注:用户自编规则优先级最高,此时也有可能编辑的规则标签设置有错误)

四、识别区设置方法



  1.首先打开对应规则的网页(便于第3步软件辅助判断)
  2.编辑规则,点击识别区任意一个标签
  3.软件会自动辅助判断识别区是否正常
  4.如果识别区未提示红字“冲突”,则表示此规则匹配当前的网页,然后点击“保存”,如果有其他规则冲突,软件会自动提示冲突的规则,此时可以用网址不包含或内容不包含来区分2个规则。

注:此时还应注意采集区域,采集标签获取内容是否正常
       务必注意,编辑规则时,如果打开的网页并非规则匹配的网页,识别区可能提示冲突,快速编辑规则时可以忽略此冲突提示,检查识别区冲突请按上面 1-4步执行操作。


识别区的设置注意点
序号名称说明
1网址必然包含网址必然包含的特征字符,一行一个,此处在新建规则时会自动填入主要网址部分
特殊用法:当需要扩大规则的识别范围,可以删掉网址域名部分,保留网址特征
2网址必然不包含网址必定不包含的特征字符,相当于排除法,一行一个
比如:有些列表页网址不包含字符 .html ,而正文包含,那么这就可以作为特征字符来区分
3内容必然包含此处指源代码中必然包含的特征字符,一行一个
注意是特征字符,网页上通用的字符比如 <a 这些通用html标签是无需填入的
4内容必然不包含此处指源代码中必然不包含的特征字符,相当于排除法,一行一个
比如:列表规则此处填入正文特征字符(检查列表源码确实不包含此字符),即可和正文
规则做区分


:内容必然(不)包含中的“内容”,是和网页代码分析来源相互对应的,如果规则是依据浏览器代码制作,那么内容就是指浏览器代码中的字符。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博账号登陆

踩过的脚印
回复

使用道具 举报

18

主题

1

好友

3078

积分

高级会员

Rank: 4

签到天数: 201 天

[LV.7]常住居民III

发表于 2013-2-11 19:34:01 |显示全部楼层
哈哈哈哈哈,好文章
回复

使用道具 举报

4

主题

1

好友

151

积分

注册会员

Rank: 2

签到天数: 5 天

[LV.2]偶尔看看I

发表于 2013-2-11 22:35:09 |显示全部楼层
zhen真强大啊!!!!呵呵!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博账号登陆

在线客服
视频演示
我的任务

申请友链|手机版|百度|爱飞科技 ( 苏ICP备12032809号 )  

GMT+8, 2020-11-29 09:54 , Processed in 0.267213 second(s), 44 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

更多