当前位置:
后台首页
>
节点管理
>
采集【<{$jdData.name}>】管理
>
创建采集
基本设置
采集名字:
入库栏目:
<{foreach from=$allclass item=v}> <{if $v.classtype==0 && $v.mid == $jdData.mid}>
<{$v.classname}>
<{/if}> <{/foreach}>
自定义目标列表采集地址:
自定义地址 一行一条
系统生成目标列表采集地址:
(系统生成列表地址)
如果目标列表地址过于复杂,请用上面的自定义地址列表
目标列表地址模板
分页变量用 [page] 替换
静态地址如:http://www.lmxcms.com/down/index[page].html
动态地址如:http://www.lmxcms.com/index.php?m=list&a=index&classid=18[page]
页码从
到
页码间隔倍数
页码倒序
第一页去掉页码
一般静态地址第一页没有页码
页码前面加字符
页码后面加字符
静态地址一般前面会有一个(_)下划线 动态地址前面会有(&page=)类似这样的字符
目标列表页面中内容链接地址区域正则:
[-content_url_box-] 代表内容链接地址区域 * 代表任何字符
如:<div class="list_box">内容页面地址区域</div><div class="page">...其他的一些代码</div>
那么正则就是 <div class="list_box">[-content_url_box-]<div class="page">
目标列表页面中内容页面地址正则:
[-url-] 代表链接地址 * 代表任何字符
如:<li><a href="http://www.lmxcms.com/down/xitong/20140924/10.html">梦想cms(lmxcms)1.3版本下载</a></li>
那么正则就是 <a href="[-url-]"
备注
采集选项
采集信息数量:
如果为 0 则采集全部
采集每条数据间隔时间:
单位:秒,此功能可有效过掉对方的短时间大量请求限制
提取标题分词为Tags:
是
入库时增加Tags:
可以直接填写Tags名字,多个以英文逗号“,”隔开
该处与上面的Tags不冲突
入库时推送此信息为专题:
可以直接填写专题id,多个专题用“,”逗号隔开
字符替换:
替换成
原字符和新字符如果是多个,用(,)英文状态下逗号间隔开,并且俩边的字符个数要对等
字符删除正则:
一行一条 * 代表任何字符
如正则为:<div class="box">*</div> 即可清除整个该div,包括里面的内容
也可以直接填写要删除的字符串
清理正文中的标签:
iframe
span
b
script
style
strong
table
font
img
a
注意: span、strong、b、font、a 这些标签系统会保留标签里面的内容,其他标签会删除标签里面内容
内容页面是否有分页:
是
内容分页地址正则:
[-info_page_box-] 代表分页地址区域 * 代表任何字符
如:<div class='content_page'>[-info_page_box-]<div class='other'> 系统会自动获取该区域里面的 a 标签链接 如果分页不是a标签形式,则无法采集分页
内容字段提取正则
标题正则:
截取区域用 [-lmx_title-] 替换 * 代表任何字符
填写此处则为该字段的值 该值优先级最高
网页关键字正则:
截取区域用 [-lmx_keywords-] 替换 * 代表任何字符
提取标题分词为网页关键字
填写此处则为该字段的值 该值优先级最高
网页描述正则:
截取区域用 [-lmx_description-] 替换 * 代表任何字符
提取正文第一段为网页描述
填写此处则为该字段的值 该值优先级最高
发布时间:
发布时间为入库时间
<{foreach from=$fieldArr item=v}>
<{$v.ftitle}>正则:
截取区域用 [-lmx_<{$v.fname}>-] 替换 * 代表任何字符
<{if $v.ftype == 'image' || $v.ftype == 'moreimage'}>
入库保存本地
<{/if}> <{if $v.ftype == 'editor' || $v.ftype == 'moreimage' || $v.ftype == 'morefile'}>
如果内容页面有分页则重复采集该处内容
<{/if}> <{if $v.ftype == 'editor'}>
checked<{/if}> name="fieldData[<{$v.fname}>][is_editimg_bendi]" value='1' />内容中的图片保存本地
<{/if}> <{if $v.ftype == 'image'}>
截取区域中第一张图片
<{/if}> <{if $v.ftype == 'moreimage'}>
截取区域中所有图片
<{/if}> <{if $v.ftype == 'image' || $v.ftype == 'moreimage'}>
加水印
(保存本地有效)
从图片下面裁剪图片
像素
图片保存本地有效 有的网络图片可能在图片的下面有水印,该功能可以裁剪掉水印部分
限制图片最大宽度
像素
图片保存本地有效 可以有效减小图片体积
生成缩略图
(保存本地有效<{if $v.ftype == 'moreimage'}> 前台调用缩略图在图片名字前面加上small_<{/if}>)
宽度
高度
根据宽度保持比例
<{/if}>
填写此处则为该字段的值 该值优先级最高
<{/foreach}>