设为首页收藏本站

爱飞SEO软件 -- 助站长腾飞!!!

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博账号登陆

只需一步,快速开始

从这里开始1.注册账号-->2.下载软件-->3.查看教程-->4.求助咨询 免费使用全部功能 官方qq群:爱飞seo软件交流

搜索
查看: 2586|回复: 5

[教程] 分类信息采集发布(自定义标签使用) 补充说明

[复制链接]

64

主题

975

好友

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

签到天数: 31 天

[LV.5]常住居民I

151****1798

社区QQ达人 宣传达人

发表于 2012-10-14 21:20:59 |显示全部楼层
简单来说,采集发布就是“填表”,将采集到的字符填入对应表单后,发送数据包到网站上去。

软件采集发布的时候默认采集发布常规的固定字段,如 标题、正文,这些在采集规则中称为“固定标签”。

有别于这些固定字段,分类信息采集发布的时候,各字段比较灵活,我们可以找到对应的“发布表单代码”来定位并匹配对应的字符、数值。这些在采集规则中称为“自定义标签”,这些在视频中均有演示和说明。

注:分类信息采集发布只是字符的采集发布,支持图片超链字符,但是不支持图片的下载和发布,可以在通过缩略图或者正文实现自动图片本地化,当然,也可以自己制作发布规则来实现更多复杂功能。

分类信息采集发布视频教程中的代码部分补充说明如下:

分析发布网页源代码部分

字符表单源代码部分:
找到: 租金的发布表单代码为typeoption[archy_zj],具体发布值需要用 采集规则 自定义标签 来抓取
  1. <tr>
  2. <th class="ptm pbm bbda"><span class="rq">*</span>租金</th>
  3. <td class="ptm pbm bbda">
  4. <div id="select_archy_zj">
  5. <input type="text" name="typeoption[archy_zj]" id="typeoption_archy_zj" class="px" tabindex="1" size="" onblur="checkoption('archy_zj', '1', 'text', '0', '0')" value="" 0 />
  6. </div>
  7. 元/月</td>
  8. <td class="ptm pbm bbda" width="180"><span id="checkarchy_zj"></span></td>
  9. </tr>
复制代码
单选表单源代码部分:
可以找到: 出租方式 的发布表单代码为 typeoption[archy_czfs],合租值为1,整租值为2,我们是通过自定义标签抓取,然后同义词替换成对应数值来匹配
  1. <tr>
  2. <th class="ptm pbm bbda">出租方式</th>
  3. <td class="ptm pbm bbda">
  4. <div id="select_archy_czfs">
  5. <ul class="xl2"><li><label><input type="radio" name="typeoption[archy_czfs]" id="typeoption_archy_czfs" class="pr" tabindex="1" onclick="checkoption('archy_czfs', '0', 'radio')" value="1" 0 class="pr"> 合租</label></li>
  6. <li><label><input type="radio" name="typeoption[archy_czfs]" id="typeoption_archy_czfs" class="pr" tabindex="1" onclick="checkoption('archy_czfs', '0', 'radio')" value="2" 0 class="pr"> 整租</label></li>
  7. </ul>
  8. </div>
  9. </td>
  10. <td class="ptm pbm bbda" width="180"><span id="checkarchy_czfs"></span></td>
  11. </tr>
复制代码
多选表单源代码部分:
详细分析见下面 多选表单分析部分
  1. <tr>
  2. <th class="ptm pbm bbda">配置</th>
  3. <td class="ptm pbm bbda">
  4. <div id="select_archy_pz">
  5. <ul class="xl2"><li><label><input type="checkbox" name="typeoption[archy_pz][]" id="typeoption_archy_pz" class="pc" tabindex="1" onclick="checkoption('archy_pz', '0', 'checkbox')" value="1" 0 class="pc"> 床</label></li>
  6. <li><label><input type="checkbox" name="typeoption[archy_pz][]" id="typeoption_archy_pz" class="pc" tabindex="1" onclick="checkoption('archy_pz', '0', 'checkbox')" value="2" 0 class="pc"> 热水器</label></li>
  7. <li><label><input type="checkbox" name="typeoption[archy_pz][]" id="typeoption_archy_pz" class="pc" tabindex="1" onclick="checkoption('archy_pz', '0', 'checkbox')" value="3" 0 class="pc"> 洗衣机</label></li>
  8. <li><label><input type="checkbox" name="typeoption[archy_pz][]" id="typeoption_archy_pz" class="pc" tabindex="1" onclick="checkoption('archy_pz', '0', 'checkbox')" value="4" 0 class="pc"> 空调</label></li>
  9. <li><label><input type="checkbox" name="typeoption[archy_pz][]" id="typeoption_archy_pz" class="pc" tabindex="1" onclick="checkoption('archy_pz', '0', 'checkbox')" value="5" 0 class="pc"> 冰箱</label></li>
  10. <li><label><input type="checkbox" name="typeoption[archy_pz][]" id="typeoption_archy_pz" class="pc" tabindex="1" onclick="checkoption('archy_pz', '0', 'checkbox')" value="6" 0 class="pc"> 电视机</label></li>
  11. <li><label><input type="checkbox" name="typeoption[archy_pz][]" id="typeoption_archy_pz" class="pc" tabindex="1" onclick="checkoption('archy_pz', '0', 'checkbox')" value="7" 0 class="pc"> 宽带</label></li>
  12. </ul>
  13. </div>
  14. </td>
  15. <td class="ptm pbm bbda" width="180"><span id="checkarchy_pz"></span></td>
  16. </tr>
复制代码



抓包代码及简单分析:
  1. formhash=a7d4d68c
  2. posttime=1350185846
  3. wysiwyg=1
  4. sortid=1
  5. subject=111111111111111                     这个是标题,软件内置规则固定采集标签
  6. selectsortid=1
  7. typeoption[archy_zj]=2222222222222
  8. typeoption[archy_mj]=333333333
  9. typeoption[archy_hx]=2%CA%D21%CC%FC1%CE%C0
  10. typeoption[archy_czfs]=1                    这个是单选,出租方式:合租 1  整租 2
  11. typeoption[archy_sfzj]=1
  12. typeoption[archy_pz][]=1                    这个是多选 床
  13. typeoption[archy_pz][]=3                    这个是多选 洗衣机
  14. typeoption[archy_dz]=444444444444444444
  15. typeoption[archy_tp][aid]=
  16. sortaid_archy_tp_url=
  17. typeoption[archy_tp][url]=
  18. typeoption[archy_lxdh]=55555555555555555
  19. typeoption[archy_lxr]=66666666666666666
  20. typeoption[archy_qq_10]=777777777
  21. typeoption[archy_jlyx_10]=3333@11.com
  22. message=aaaaaaaaaaaaaaaaa                   这个是正文,软件内置规则固定采集标签
  23. replycredit_extcredits=0
  24. replycredit_times=1
  25. replycredit_membertimes=1
  26. replycredit_random=100
  27. save=
  28. usesig=1
  29. allownoticeauthor=1
复制代码
多选表单分析部分,多选匹配关系如下:
  1. 表单代码                   值      对应选项
  2. typeoption[archy_pz][]     1       床
  3. typeoption[archy_pz][]     2       热水器
  4. typeoption[archy_pz][]     3       洗衣机
  5. typeoption[archy_pz][]     4       空调   
  6. typeoption[archy_pz][]     5       冰箱
  7. typeoption[archy_pz][]     6       电视机
  8. typeoption[archy_pz][]     7       宽带
复制代码
从而我们分析得出:多选字段“表单代码 typeoption[archy_pz][] ”一样,不同的数值对应不同的选项,比如数字3对应洗衣机
我们在采集规则中,新建一个自定义标签 pz,然后通过 采集规则--后处理 用 p语言 来进行判断和处理:

比如当被采集网页字段中包含“洗衣机”,就在提交数据包中添加这段代码 typeoption[archy_pz][]=3

这需要用到p语言函数 miscadd("表单代码","值",处理标记),处理标记:0表示正文表单,1表示用户信息

采集规则--后处理 p语言片段如下:
  1. void main(void)
  2. {
  3. //多选判断并增加表单,pz为自定义表单代码,中文助记符为 配置
  4. //由于软件自动设置为全局变量,无需再次声明pz变量
  5. //msgbox(pz);
  6. if(strfind(pz,"床")>1)                    //如果在字段 pz 中查找到 字符 床
  7. miscadd("typeoption[archy_pz][]", "1",0); //则在正文表单中增加 typeoption[archy_pz][]=1
  8. if(strfind(pz,"热水器")>1)
  9. miscadd("typeoption[archy_pz][]", "2",0);
  10. if(strfind(pz,"洗衣机")>1)
  11. miscadd("typeoption[archy_pz][]", "3",0);
  12. if(strfind(pz,"空调")>1)
  13. miscadd("typeoption[archy_pz][]", "4",0);
  14. if(strfind(pz,"冰箱")>1)
  15. miscadd("typeoption[archy_pz][]", "5",0);
  16. if(strfind(pz,"电视")>1)
  17. miscadd("typeoption[archy_pz][]", "6",0);
  18. if(strfind(pz,"宽带")>1)
  19. miscadd("typeoption[archy_pz][]", "7",0);
  20. }
复制代码


对于一个版块有多个 主题分类,我们可以通过采集规则固定标签“分类”、或者转载界面上“主题分类”空格,来发布到目标主题分类中,详情参考视频演示。

模拟发布原理概述:
提交表单的时候,包含两个最重要的内容
1. 发布地址,即数据包提交的网址部分,可以通过get方式来提交字段,比如浏览器网址部分增加参数,访问就是get的意思
2. 表单内容,即抓包内容表单部分,一般是通过 post方式来提交字段,比如发布标题、正文字段

当我们在发布抓包(即表单内容)内找不到控制参数时,可以发布网址是否有区别。下面分析不同分类信息和发布网址对应关系:
  1. 帖子类型    发布提交网址
  2. 发表帖子 http://www.***.cn/forum.php?mod=post&action=newthread&fid=96&cedit=yes&extra=
  3. 商家     http://www.***.cn/forum.php?mod=post&action=newthread&sortid=2&fid=96&cedit=yes&extra=
  4. 促销     http://www.***.cn/forum.php?mod=post&action=newthread&sortid=3&fid=96&cedit=yes&extra=
  5. 发起投票 http://www.***.cn/forum.php?mod=post&action=newthread&special=1&fid=96&cedit=yes&extra=
  6. 发布悬赏 http://www.***.cn/forum.php?mod=post&action=newthread&special=3&fid=96&cedit=yes&extra=
  7. 发起辩论 http://www.***.cn/forum.php?mod=post&action=newthread&special=5&fid=96&cedit=yes&extra=
  8. 发起活动 http://www.***.cn/forum.php?mod=post&action=newthread&special=4&fid=96&cedit=yes&extra=
复制代码
分析得出,提交网址不同点如下,相对于默认“发表帖子”的提交网址,增加了一些识别字段:
  1. 帖子类型  表单名  表单值
  2. 商家     sortid   2
  3. 促销     sortid   3
  4. 发起投票 special  1
  5. 发布悬赏 special  3
  6. 发起辩论 special  5
  7. 发起活动 special  4
复制代码
在 处理方案--发布--发布表单 中增加一个表单,注意,因为是修改网址,请选择 get


按照以上方法来处理一个版块有多个 分类信息的情况,其中,为了自动控制,可以在“赋值”中使用 p语言,$m_return 表示返回变量,当然,如果只想发布到“商家”,则在“赋值”中输入数值 2 即可,这样用不同的方案来控制发布对应的“分类信息”帖子中。

p语言片段如下,意思为 如果采集标题中包含字符 商家,则返回数值 2,如果不是,则返回 3(即促销)
  1. void main(void)
  2. {
  3. if(strfind($title, "商家") >= 0)
  4. $m_return = 2;
  5. else
  6. $m_return = 3
  7. }
复制代码

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博账号登陆

踩过的脚印
已有 1 人评分铜钱 收起 理由
系统奖励 + 3 发帖收益,回帖人越多收益越高

总评分: 铜钱 + 3   查看全部评分

回复

使用道具 举报

2

主题

0

好友

560

积分

超级版主

Rank: 8Rank: 8

签到天数: 30 天

[LV.5]常住居民I

186****9688

社区QQ达人

发表于 2012-10-27 10:59:52 |显示全部楼层
嗯 学习了
已有 1 人评分铜钱 收起 理由
系统奖励 + 1 积极讨论

总评分: 铜钱 + 1   查看全部评分

回复

使用道具 举报

无效楼层,该帖已经被删除

48

主题

0

好友

2052

积分

禁止发言

签到天数: 43 天

[LV.5]常住居民I

183****3575

发表于 2012-10-27 15:04:30 |显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

1

主题

0

好友

125

积分

注册会员

Rank: 2

签到天数: 2 天

[LV.1]初来乍到

发表于 2012-10-28 15:03:57 |显示全部楼层
哥顶的不是帖子,是寂寞!
回复

使用道具 举报

0

主题

1

好友

83

积分

新手上路

Rank: 1

签到天数: 4 天

[LV.2]偶尔看看I

发表于 2013-1-31 17:29:48 |显示全部楼层
看的有点晕了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博账号登陆

在线客服
视频演示
我的任务

申请友链|手机版|百度|爱飞科技 ( 苏ICP备12032809号 )  

GMT+8, 2021-2-26 20:52 , Processed in 0.291180 second(s), 49 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

更多