高铁火车头采集器破解版
高铁火车头采集器破解版是一款非常好用很受大众喜爱的网络数据采集整理软件。这款软件几乎是所有的网页都可以采集,所涉及的范围非常的广,无论是什么语言还是编码,而且这款软件能力非常的强大。它的收集速度是普通收集器的7倍之多,其中采用了最顶级的配置系统以及经过制作方的反复性能优化,让用户的采集采集速度快到飞起。用户还可以批量的进行任务处理。大大的提高工作效率。
有需要的用户快来下载体验吧!
一、准备
软件:火车头采集器/高铁采集器
使用环境:PC端
二、采集
1.获取列表页数据
进入待采集网站,打开需要采集的栏目或者待采集的关键词搜索列表。
确定这个栏目的文章页数,翻到底部发现总页数为15,确定采集页数为15。
跳转到下一页,确定网页的起始网址格式,变量基本是.html前面的序号,所以我们先直接复制下来。
进入高铁采集器,点击+按钮跳出任务设置页面。
点击网页采集规则页面的起始网页右边的第一个按钮进入向导,填入复制下来的页面地址,并将页面的变量替换成右边的地址参数,直接删掉原页码然后点击按钮插入就可以。
最终会自动生成一个采集列表文章的链接,但这只是采集页面数据,并没有将需要的内容精确地采集到。
因为需要让机器知道我们要采集哪些数据,所以我们要在网页代码中找到开头和结尾的标志,以便机器采集。
右击网页空白处查看网页源代码
由于源码大多是一行显示,所以我们需要勾选源码顶部的“换行”复选框。
Ctrl+F 搜索源代码中包含列表页的第一条数据的标题,并寻找与该标题临近的一个唯一标签。
<h1><span>产品运营</span></h1> </div> <div class="sec-panel-body">
在这段代码中,我选择了 “<divclass=”sec-panel-body”>” 作为识别开头的代码。
同样的方式,我搜寻列表页的最后一条数据的标题,找到了识别结尾的代码。
是否是唯一且能识别到的代码,我们也可以通过 Ctrl+F 去查找,只要搜索数据是唯一的就是了。
填入写好的起始和结束代码后,点击右下角的网页测试按钮测试采集数据是否正常。
让机器采集一部分列表页数据就可以停止了,然后看到采集的数据是比较多的,有些数据不是我们需要的数据页,所以我们需要将其排除。
查阅到内容页的地址为/n/(*).html,所以我们可以用网页格式去锁定采集地址。
在链接过滤处选择链接包含并填入刚才的格式
接下来发现内容页地址采集正常。
2.获取内容页数据
接下来我们就需要写内容页的采集规则,这里比较复杂,需要认真看。在最近的测试中,发现对于新手来说也并不是难事,因为逻辑一样的,多去调试就行了。
进入内容采集规则页面,内置有标题和内容,这里我多加两条数据“作者”和“日期”,以便大家更深理解。
我们在采集过程中可能需要更多的数据,基本上都可以按照我说的操作采集出来。
同样,在文章页面右击调出源代码,我按标题、作者、时间、内容的顺序教大家写采集规则。
首先,我们查找到文章标题的位置,确定位置在<h1>标签内,起始大部分的页面都是<h>标签,只是里面的样式不同而已。
<h1 class="entry-title">标题</h1>
接着直接看后面的代码,通过一些标志,看到作者和时间,这时候就确定了时间和地址。
<a class="nickname url fn j-user-card">作者</a> </span> <span class="dot">•</span> <time class="entry-date published" datetime="2022-10-31T08:17:06+08:00" pubdate> 2022年10月31日 08:17:06 </time>
然后再看接下来的内容,去找找内容的代码。
通过文章内容找到旁边的div标签是唯一识别的标签(经验之谈,一般在class中包含content),咱们就可以确定内容的开始标签。
<div class="entry-content text-indent">
同样的方法,找到结尾词旁边的标签为:
<div class="entry-readmore">
这就确定了标题、作者、时间、内容了,接下来需要去软件内写清楚规则。
①标题
我们提取标题优先选择正则提取,并将复制的所有变量在匹配内容中用[参数]代替,在组合结果中直接点击[参数1]。
②作者
同样我也选择用正则提取,由于某些数据是变量且不需要,我们直接用(*)代替即可,需要的内容用[参数]替代,并在组合结果中选择[参数1]。
③日期
因为我想给大家讲一下为什么有[参数1]、[参数2]、[参数N],所以我使用多个参数进行举例。
在这里,我把标签中的参数作为我的结果,将标签中的内容直接丢掉了,但是获取的结果是一样的。
所以在写规则的时候也不一定要中规中矩按别人教你的来,只要保证数据准确就行。
④内容 这里不需要多说,因为前面我们分析过,前后截取的代码已经知道,直接填进去。
但是要考虑到不同页面中的开头和结尾可能是变量,所以我们要多打开一些文章去查看网页代码,毕竟某些页面开头有引言,有的结尾有版权声明。
三、测试
现在规则写好了,我们需要找个页面测试下,我们发现数据采集是正确的,现在基本的采集就完成了。
对于我来说,AI写作训练不需要标签,所以我需要在采集的时候直接过滤掉,所以我在内容标签下的数据处理中,选择html标签过滤,直接全选了所有标签。为了阅读方便,我取消了换行和所有标签,当然我们也可以通过对数据的处理输出我们需要的内容。
四、输出
我们可以直接通过Web发布模块直接发布到网站上,但由于软件有些年代,高铁采集器只支持根路径的url发布,不支持多级url,举个例子
支持:
www.example.com/fabu
www.example.com/fabu.php
不支持:
www.example.com/wp-json/api/fabu
www.example.com/wp-json/api/fabu.php
WordPress 可以通过在根目录添加文件或者利用插件来实现Web发布
<?php
add_action('plugins_loaded', function () {
return;
$REQUEST_URI = parse_url(esc_url($_SERVER["REQUEST_URI"]), PHP_URL_PATH);
$REQUEST_URI = untrailingslashit($REQUEST_URI);
if ($REQUEST_URI === "/fabu") {
$post = json_decode(file_get_contents("php://input"), true);
if (array_key_exists('post_category', $post)) {
$post['post_category'] = explode(',', $post['post_category']);
}
if (array_key_exists('tags_input', $post)) {
$post['tags_input'] = explode(',', $post['tags_input']);
}
wp_send_json([
'code' => 200,
'data' => wp_insert_post($post),
]);
wp_die();
}
});
通过百度网盘分享的文件:highferrum_9.8.0.0_full_function_wi… (34.9 MB)
暂无评论内容