WordPress 免费开源采集插件 WP-JPost

来源: 老季博客
日期: 2017-8-3
作者: 腾讯云/服务器VPS推荐评测/Vultr
阅读数: 1,885

本页已停止维护,请移步:https://jiloc.com/wp-jpost

之前我们在网上看到有wp-autopost插件,是自动采集的。但是需要付费。

下面我们这边发布一个开源的版本。如果觉得好,大家可以赞助我们哦~

本插件使用需要一定的html、css 基础.

本插件开发纯属兴趣~~~插件已发布到wordpress官方插件中心

WordPress 开源采集插件 wp-jpost 使用问题

不会写采集规则?请博主帮写一个~亲,插件免费,规则有价,详情请联系QQ:366609877 (注明:wp-jpost 规则)

主要功能

  1. 定向采集目标网站内容,并直接发布。
  2. 可以设置对应入库的分类。
  3. 可以自定义文章的标签。
  4. 可以自定义替换标题、文章内容。
  5. 自动另存为图片到本地。
  6. 自动删除内容中的所有链接。
  7. 加入百度翻译,可以将内容翻译成英文。
  8. 脚本定时自动增量功能。

插件截图如下

WordPress 免费开源采集插件 WP-JPost
WordPress 免费开源采集插件 WP-JPost
WordPress 免费开源采集插件 WP-JPost

如何安装WordPress采集插件WP-JPost?

方法一:在后台插件中直接搜索“wp-jpost”

WordPress 免费开源采集插件 WP-JPost
WordPress 免费开源采集插件 WP-JPost
WordPress 免费开源采集插件 WP-JPost

方法二:在WordPress插件官网下载,然后上传安装

https://wordpress.org/plugins/wp-jpost/

如何添加采集任务?

任务名

命名请使用英文字母数字组合.

例:douban。

抓取目标网站域名(网址以/结束)

这里填写目标网站首页的地址,以/结束。

例:https://www.douban.com

抓取目标网站列表页

列表页一般都是二级页面,是栏目的具体展示页,一般是用页内跳转的链接。

例如:https://www.douban.com/group/meituikong/

入库目标分类ID

WordPress 后台 — 文章 — 分类目录 — 编译你想入库到的分类 — 查看浏览器地址栏的地址。

例:/wp-admin/term.php?taxonomy=category&tag_ID=38…

这里的tag_ID=38,这个38就是我们需要填写的值。

标签

WordPress 入库时,写入文章的标签值。多个标签请使用,分割(英文状态的逗号分隔)

例:WordPress,LaoJi,wp-jpost。

目标网站a链接元素

列表页中到二级目录的链接地址,同jQuery选择器方法。

分页格式

列表页中第二页区别列表页的地方。例:

列表页地址:https://www.douban.com/group/meituikong/

翻页后变成:https://www.douban.com/group/meituikong/discussion?start=8850

那么这里就填写:discussion?start={page}

这里的 {page} 就是翻页变化的地方。

分页最大值

这里填写翻页后最后的page值。例:

http://147hub.com/page/2052

这里翻页的最大值,即填写:2052

获取单页标题、目标单页获取元素 :title

内容页中标题、内容的标签值。同jQuery选择器方法。下面我们具体得讲述一下怎么选择元素。首先我们需要使用chrome、firefox之类的浏览器。这些浏览器都具有调试等功能。我们这里以Firefox为例。

首先分析代码,以下元素标签可以是div , h3 ,title ,span , p 等。

例:<元素标签 class=”classname”>…</元素标签>,那么我们应该则填入:元素标签.classname。

例:<元素标签 id=”classname”>…</元素标签>,那么我们应该则填入:元素标签#classname。

学习更多CSS选择器可以参考:http://www.w3schools.com/cssref/css_selectors.asp

步骤:

1、网页空白处右击 — 查看元素 。 下面会弹出一个调试器出来。
WordPress 免费开源采集插件 WP-JPost

内容搜索值 、内容替换值(可以批量多个替换)

比如标题正文中带有一些原来的字符串,我想替换成我的,或者不要了。

注意:这里如想替换成一样的值,可以直接写一个。如每个替换成不同的则需要对应填。例:

搜索值:- 摔角资料, – 赛事新闻 – 摔角网, – 赛事战报, – 摔角网

替换值:

搜索值:搜索1,搜索2,搜索3

替换值:替换1,替换2,替换3

注意这里要一一对应。例如搜索2去要替换成空则替换值也需要留空(替换1,,替换2),否则就不能对应替换了。

curl设置

我们在采集时,会遇到一些网站带有https,或者做了防采集。这时我们就需要curl来帮忙。具体方法请移步:WordPress 采集插件 WP-JPost 在Windows/Linux 系统环境下安装curl 采集 带ssl的https网站 图文教程


如有任何意见、建议,请在这里留言!

WordPress 采集插件 wp-jpost 任务列表 已知规则

WordPress 采集插件 wp-jpost 问答总结

QQ群:665443669

链接到文章: https://jiloc.com/43412.html

66 replies on “WordPress 免费开源采集插件 WP-JPost”

21kan说道:

标签不能采集吗?每一篇文章都是一个关键字觉得不太好

只能采集标题及内容。

21kan说道:

怎样调整抓取时间,太快时有些图片抓取不到

WordPress后台 — wp-jpost菜单 — 设置 ,可以设置采集跳转时间。但是我们不推荐抓图片,建议使用替换功能,替换图片路径。有些图片抓不到会终端整个采集进程。

CDElite说道:

:first 像这样的选择器也能用吗?
貌似不行…

应该是可以的吧。

烽火说道:

谢谢作者的劳动,这个插件真的很不错
能请教一下,可否加个分类列表指定在哪个页码范围内的才采集呢?方便有时候采集中断以后重新开始采集。或者只想要指定范围内的文章的时候方便些。

可以根据采集的情况自行修改浏览器地址的参数。

酷酷小子说道:

WP采集插件:WP-JPost插件详细使用教程 http://www.feiheseo.cn/jianzhan/2103.html 辛苦研究了好久,分享给你们!

感谢您的分享与支持~

yjfeng说道:

按例子里的设置后调试后马上跳到shuaijiao.com页面了。

我们对示例进行了重新整理,详情请移步:https://www.jiloc.com/43731.html

yjfeng说道:

多谢及时更新,已经可以用了 😉

TEST说道:

先校验文章是否重复,还是先保存远程图片?会不会多次采集同一片文章,虽然没有重复入库,但是图片重复保存了?

文章不会重复,因为入库之前会检测标题。图片是增加文章时才会新增保存。图片这里是不会检测已经保存的。

最值买说道:

非常好用的采集插件

搬瓦工说道:

不错 很实用的插件

三世苍凉说道:

二次开发的,能配合采集?
我看就只能采集图片阿,内容阿,

内容编辑框下面还有很多二次开发的一堆自定义东西。无法配合采集阿。

下面的自定义的内容,其实当初也只是满足了一个我的采集需求。呵呵,您看要是用得上就用吧~

飞流说道:

能采集dz论坛吗?

理论上可以采集,没问题

fey说道:

可以采集https页面吗? 试了几个站都不行,提示获取网页内容失败

可以采集https页面,但是需要是用curl。必须填入正确的curl路径。

青山说道:

博客还是原创的好

残影说道:

谢谢分享

arens说道:

🙂 🙂
还有一点关键的忘提了,这个处理能否让系统处理,而非浏览器端,现在关掉处理页面,就会停掉了

系统的话需要系统层级的脚本。让浏览器接管为了防止出现采集过程出错。

arens说道:

使用了感觉还不错,给出以下建议:
采集内容格式化文章,例如去除文章内的样式标签,只保留文字和图片
本地化远程图片和去文章内外联能否内置到插件里?
是否可以支持伪原创(第三方也可以)
支持随机加入段落(支持HTML),而非随机关键字

1、直接用删除标签功能可以去除文章内的样式标签。
2、本地化图片:可以在我们群里下载Auto save image插件。此插件由他人开发所以暂时不会内置。
3、随机插入可以插入HTML。直接写入即可。

wocaca说道:

为何才过来的标题两边都会有#

为了区分出来是采集的内容。

无可奈何花落去说道:

:redface: 😥 :mrgreen: 为什么调试和采集按钮点开全是404错误???网站目录都是最高权限了,网站本身是没有问题的……

1、检查网站是否启用了WordPress的rewrite规则,如果没有,请启用。【请注意:暂时无法兼容WordPress固定链接的 朴素 格式】

2、打开面板,对应的网站网站,设置 — 配置文件,将404的错误注释或者删除掉(从web服务移交给WordPress) :

anzj说道:

如果能加入地方名通配符,那就更完美了。 💡

seabye说道:

让一些匹配方式允许正则表达式就好了。例如替换(用以替换和删除内容),因为 HTML 注释标签无法被选择器选中就造成了注释无法操作,同时例如 p 标签中只有一个 br 换行这种杂乱情况,CSS 有 :empty 可以选中空内容标签,但是无法组合或逆向的选中只有一个 br 的 p。这些情况都可以正则解决。(对于注释内容可以给个开关,直接清除注释也可以)。

感谢您的宝贵建议,我们后期会考虑将正则替换功能增加进去。

唯灵说道:

请问插件会检测同一个文章名称是否重复采集吗?

入库的时候会自动检测重复的。

itamzxm说道:

我有几个很重要的点!
1.支持字母通配符
2.支持数字通配符

感谢您的建议,我们会考虑这些因素的。

afr说道:

请问采集的UA是多少呀……
如果是否可以自定义UA :biggrin:

目前没有开发自定义UA的功能,后期会考虑加入。
你是出于什么目的需要加入自定义UA ?
如果是防采集的话可以使用linux curl,这样的话大部分站都能采集到。

安徒说道:

1、抓取采集网站固定内容并保存到Wordpress中。
2、自动去除文章中的内链(需要Auto save image 插件)。
3、自动保存目标站的图片(需要Auto save image 插件)。

Auto save image 插件现在是否还要安装?

这个插件需要安装的呢。

mengyexue说道:

为什么无法保存任务信息,所有打*的信息都填写了信息,最后保存只有任务名称,其他信息都保存不了

加群窗口私聊我吧。

检查以后发现这是可能存在变量冲突问题,可以更新到最新版本以解决此问题。

花不花说道:

调试或开始采集,直接4040

404错误么?可以看一下我们的说明,里面有写如何解决。

zhujiwiki说道:

你强啊,下来了,整个站试下。
是不是就可以不用火车头了

试一下吧,我们的插件还在更新中。有什么问题的话可以留言或者加群交流。

照着教程和实例琢磨了半天,终于搞懂了,已经能够成功采集了,非常感谢免费提供这个优秀插件。
现阶段可定制的地方稍少了点,希望继续增加。
例如:
1、发布时间增加一个随机数,这样就不会一堆文章的发布时间集中在一起。
2、任务增加指定时间自动后台执行或者访问页面触发执行。
3、简繁转换

感谢使用我们的插件,您提的建议我们会在后续版本中更新。

大鱼说道:

严重支持开源。。加油更新到 0.1.0啊

达到说道:

感谢开源,默默支持

666说道:

😛 老板可以采集BT种子吗

这个插件不能采集BT种子。这里有可以采集magnet链接的:https://www.jiloc.com/43136.html

小龙说道:

顶顶

老王说道:

用不了,规则任务弄好了,开始采集,跳转到http://xxx.com/jpost//?jtask=mm
404了

1、该bug我们已记录。
2、你的网站是否未开启wordpress rewrite,将rewrite打开后再试下看看。

留作业说道:

前来贺喜

采集侠说道:

不会用啊。

晚点我们会给出详细说明的。
但是使用这个必须要有一定的html功底才行。

采集侠说道:

能不能搞得简单点,像wp-autopost那样

亲,这个是0.0.1版。后期会更加简单易用。希望大家多提意见~

回复 VPS推荐评测/搬瓦工优惠码 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注