您现在的位置是:首页 > 教程 > dedecms教程dedecms教程
织梦dedecms采集程序支持部分采集的实现方法
千兰2024-06-13 18:04:54dedecms教程已有人查阅
导读DEDECMS自带的采集功能,虽然比不上其他专业的采集软件,但对比其他采集程序,在性能上还是非常不错。很多其他程序无法采集下来的网页,使用DEDECMS可以采集得到。
DEDECMS自带的采集功能,虽然比不上其他专业的采集软件,但对比其他采集程序,在性能上还是非常不错。很多其他程序无法采集下来的网页,使用DEDECMS可以采集得到。比如58同城首页,使用discuz的下载函数采集过来的都是一片空白或者警告内容,但是使用dedecms的下载完全可以下载下来。
DEDE采集程序原理
DEDECMS的采集原理很简单: 通过PHP程序socket模拟HTTP请求,下载整张网页的HTML。不过这里面有一个不足之处--不支持部分采集。如果我们仅仅要获得对方网页的标题,却下载了整张网页。一两张无所谓,但是大量的下载就会挤占服务器资源和带宽。比如商务大陆网35dalucom的分类信息网站大全,该频道含有600多分类信息网站,网站程序后台自动定期获取这些网站的标题,以判断这些网站是否可以正常打开,内容是否发生改变。如果使用dede的程序,直接默认下载整张网页而不是仅网页HTML头部部分,长期下去可想而知会挤占多少服务器资源。此时我们此处仅仅需要获得对方网页的标题而已。
修改文件dedehttpdown.class.php
要让DEDECMS实现部分采集的功能非常简单,只需要修改采集程序文件dedehttpdown.class.php 中的2个地方即可。使用notepad++或者dreamweaver 打开 /include/dedehttpd.class.php:
(1)第118行 $this->m_html = '';背后加入$this->dataLimit = 0;
(2)第 285行$this->m_html .= fgets($this->m_fp,256); 背后加入 if($this->dataLimit > 0 && strlen($this->m_html) > $this->dataLimit) break; 保存即可。
使用方法:
DEDE采集程序原理
DEDECMS的采集原理很简单: 通过PHP程序socket模拟HTTP请求,下载整张网页的HTML。不过这里面有一个不足之处--不支持部分采集。如果我们仅仅要获得对方网页的标题,却下载了整张网页。一两张无所谓,但是大量的下载就会挤占服务器资源和带宽。比如商务大陆网35dalucom的分类信息网站大全,该频道含有600多分类信息网站,网站程序后台自动定期获取这些网站的标题,以判断这些网站是否可以正常打开,内容是否发生改变。如果使用dede的程序,直接默认下载整张网页而不是仅网页HTML头部部分,长期下去可想而知会挤占多少服务器资源。此时我们此处仅仅需要获得对方网页的标题而已。
修改文件dedehttpdown.class.php
要让DEDECMS实现部分采集的功能非常简单,只需要修改采集程序文件dedehttpdown.class.php 中的2个地方即可。使用notepad++或者dreamweaver 打开 /include/dedehttpd.class.php:
(1)第118行 $this->m_html = '';背后加入$this->dataLimit = 0;
(2)第 285行$this->m_html .= fgets($this->m_fp,256); 背后加入 if($this->dataLimit > 0 && strlen($this->m_html) > $this->dataLimit) break; 保存即可。
使用方法:
$remoteURL = ‘http://www.ebingou.cn/info/fabu/’;
$dh = new DedeHttpDown();
$dh->OpenUrl($remoteURL);
$dh->dataLimit = 1024;
$remoteHTML = $dh->GetHtml();
我们只需要在 $dh->OpenUrl($remoteURL);背后加入 $dh->dataLimit = 1024;(你想采集的字节大小)即可。 通过这样的方法,我们可以更节约服务器资源。本文出自www.ebingou.cn商务大陆网分类信息平台,转载请保留作者链接,谢谢。
本文标签:
很赞哦! ()
相关文章
随机图文
-
dedecms的dede:list标签支持weight权重排序的方法
找到"根目录includearclistviewclassphp"文件修改代码在文件第行处添加按weight排序判断代码(红色部分为新添加代码)//排 -
织梦dedecms5.1中TAG的调用方法说明
关键字描述:方法 调用 标记 current TAG 方式 文档 适用于 内容 typeDedeCms 5.1中对TAG标记新添加一个'current'属 -
Dedecms5.7关于文章生成在根目录时多斜杠的解决方法
文章生成在站点根目录下,例如:在V5.7以前的版本解决办法是;但到5.7版本时会有细小的变化;此更改只针对把文章生成在根目录的,对于生成多级目录的无需更改。 -
dedecms织梦文章列表加上序号效果
效果加上文章 < " .downtop ul.text > class今天偶来介绍如何在dedecms文章列表加上序号:
留言与评论 (共有 条评论) |