您现在的位置是：首页 > 教程 > dedecms教程dedecms教程

dedecms5.3采集步骤教程

芷蕾2023-09-26 13:40:39dedecms教程已有12人查阅

导读首先说明一下的是，第一次写这种教程，有不当的地方请大家包涵。采集过程其实就是copy的过程，只不过，我们copy的是显示结果，而采集主要针对源码进行。

DedeCms V5.3 采集基础教程。首先说明一下的是，第一次写这种教程，有不当的地方请大家包涵。
进入正文：
采集过程其实就是copy的过程，只不过，我们copy的是显示结果，而采集主要针对源码进行。
第１步，建立节点
我们以图片中的网址为例，目标页面编码一定要选对，不然采集回来的内容会乱码，如果你采集回来的内容有乱码，首先要考虑的是编码问题，这里我们选utf-8，怎么知道别人的编码是什么呢？看看源码

<content="text/html; charset=utf-8" />

就会明白了。“区域匹配模式”我选择是的正则表达式，因为如果选“字符串”，将有一些广告代码过滤不掉。
第２步：文章网址匹配规则。
这个就要看采集网站的源代码(图２)了，找到一个包含所有要采集内容网址的代码（要唯一，建议多使用Ctrl F），这样我们就确定了要采集区域的网址，不放心就测试一下。
第３步：在前面２步的基础上我们已经找到了需要采集的网址，下面来看具体的采集内容。
在内容配置选项中，如果你比较懒，可以象我一样不要选那么多的选项，只选择你感兴趣的部分，如文章标题，作者及来源等，在dede cmsV5.3中已经把dede V5.1的规则进行了改造，易于初学者使用了，其基本形式是标签和内容放在一块的，V5.1要分开始标签和结束标签，其实原理都是一样的。
这里讲讲自定义作者的问题。V5.3以前的版本采集时可以用@me="作者“的形式自定义作者，而v5.3只能用替换的方法实现了，当然也有不便之处，这样我们就确定了基本的东西了。
第４步：便是我们要的内容核心了，这里会用到比较多的过滤规则，幸好dede V5.3给我们准备了一些常用的，不过，如果你想采集比较复杂的网页那还得学会一些常用的正则表达式了。这样我们就基本学会了dedecms V5.3的采集，是不是有点简单？
第５步：导出内容，这个我就不多讲了。

本文标签：

很赞哦！ (0)

上一篇：自动更新HTML FOR DedeCMS 5.3(支持首页，列表页，文章页)的方法

下一篇：织梦cms修改更换头部logo图片的方法

暂无内容