WordPress WP-JPost 自动采集发布插件


之前我们在网上看到有wp-autopost插件,是自动采集的。但是需要付费。

下面我们这边发布一个开源的版本。如果觉得好,大家可以赞助我们哦~

本插件使用需要一定的html、css 基础.

本插件开发纯属兴趣~~~插件已发布到wordpress,等待通过中~~~

老季常用国内/国外VPS推荐总结

便宜VPS 搬瓦工bandwagonhost 优惠码

Vultr 充5美元可以用5个月VPS 充值最高送100美元

Linode全面升级 推出月付5刀的套餐 机房可选东京2

插件下载地址:https://wordpress.org/plugins/wp-jpost/

WP-JPost 论坛:http://wp-jpost.com/

演示站:http://147hub.com/

ChangeLog

= 0.2.4(2018-01-25)

* [修正]解决可能发生的变量冲突问题。

= 0.2 (2018-01-10) =

* 界面修改。

* 添加随机插入关键词功能。

= 0.1.1 (2018-1-5) =
* [添加]去除正文中的指定标签HTML内容.

= 0.1 (2017-12-1) =
* [修正]采集页面http code从404变成200,旧版本需要更新WordPressre的rewrite规则.

操作方法:https://www.jiloc.com/43432.

主要功能:

1、定向采集目标网站内容,并直接发布。

2、可以设置对应入库的分类。

3、可以自定义文章的标签。

4、可以自定义替换标题、文章内容。

5、自动另存为图片到本地。

6、自动删除内容中的所有链接。

7、增加模拟登陆功能。

8、可抓取内容也中的iframe内容。

插件截图如下:


如何添加采集任务?

任务名 :

命名请使用英文字母数字组合.

例:douban。

 

抓取目标网站域名(网址以/结束) :

这里填写目标网站首页的地址,以/结束。

例:https://www.douban.com

 

抓取目标网站列表页 :

列表页一般都是二级页面,是栏目的具体展示页,一般是用页内跳转的链接。

例如:https://www.douban.com/group/meituikong/

 

入库目标分类ID :

后台 — 文章 — 分类目录 — 编译你想入库到的分类 — 查看浏览器地址栏的地址。

例:/wp-admin/term.php?taxonomy=category&tag_ID=38…

这里的tag_ID=38,这个38就是我们需要填写的值。

 

标签 :

WordPress 入库时,写入文章的标签值。多个标签请使用,分割(英文状态的逗号分隔)

例:WordPress,LaoJi,wp-jpost。

目标网站a链接元素 :

列表页中到二级目录的链接地址,同jQuery选择器方法。

 

分页格式 :

列表页中第二页区别列表页的地方。例:

列表页地址:https://www.douban.com/group/meituikong/

翻页后变成:https://www.douban.com/group/meituikong/discussion?start=8850

那么这里就填写:discussion?start={page}

这里的 {page} 就是翻页变化的地方。

 

分页最大值 :

这里填写翻页后最后的page值。例:

http://147hub.com/page/2052

这里翻页的最大值,即填写:2052

 

获取单页标题、目标单页获取元素 :title

内容页中标题、内容的标签值。同jQuery选择器方法。

 

内容搜索值 、内容替换值 :

比如标题正文中带有一些原来的字符串,我想替换成我的,或者不要了。

注意:这里如想替换成一样的值,可以直接写一个。如每个替换成不同的则需要对应填。例:

搜索值:- 摔角资料, – 赛事新闻 – 摔角网, – 赛事战报, – 摔角网

替换值:

搜索值:搜索1,搜索2,搜索3

替换值:替换1,替换2,替换3

 


使用示例:

任务名 :shuaijiao

抓取目标网站域名(网址以/结束) :http://www.shuaijiao.com/

抓取目标网站列表页 : http://www.shuaijiao.com/news/

入库目标分类ID :1

标签 :WWE,RAW,SmackDown

目标网站a链接元素 :div.lists6 dl.page0 dd a

分页格式 :{page}.html

分页最大值 :1522

获取单页标题 :title

目标单页获取元素 :div[class=”news_info”]

内容搜索值 :- 摔角资料, – 赛事新闻 – 摔角网, – 赛事战报, – 摔角网

内容替换值 :


如有任何意见、建议,请在这里留言!

WordPress 采集插件 wp-jpost 任务列表 已知规则

WordPress 采集插件 wp-jpost 问答总结

QQ群:665443669

点赞
  1. anzj说道:

    如果能加入地方名通配符,那就更完美了。 :idea:

  2. seabye说道:

    让一些匹配方式允许正则表达式就好了。例如替换(用以替换和删除内容),因为 HTML 注释标签无法被选择器选中就造成了注释无法操作,同时例如 p 标签中只有一个 br 换行这种杂乱情况,CSS 有 :empty 可以选中空内容标签,但是无法组合或逆向的选中只有一个 br 的 p。这些情况都可以正则解决。(对于注释内容可以给个开关,直接清除注释也可以)。

    1. 感谢您的宝贵建议,我们后期会考虑将正则替换功能增加进去。

  3. 唯灵说道:

    请问插件会检测同一个文章名称是否重复采集吗?

    1. 入库的时候会自动检测重复的。

  4. itamzxm说道:

    我有几个很重要的点!
    1.支持字母通配符
    2.支持数字通配符

    1. 感谢您的建议,我们会考虑这些因素的。

  5. afr说道:

    请问采集的UA是多少呀……
    如果是否可以自定义UA :biggrin:

    1. 目前没有开发自定义UA的功能,后期会考虑加入。
      你是出于什么目的需要加入自定义UA ?
      如果是防采集的话可以使用linux curl,这样的话大部分站都能采集到。

  6. 安徒说道:

    1、抓取采集网站固定内容并保存到Wordpress中。
    2、自动去除文章中的内链(需要Auto save image 插件)。
    3、自动保存目标站的图片(需要Auto save image 插件)。

    Auto save image 插件现在是否还要安装?

    1. 这个插件需要安装的呢。

  7. mengyexue说道:

    为什么无法保存任务信息,所有打*的信息都填写了信息,最后保存只有任务名称,其他信息都保存不了

    1. 加群窗口私聊我吧。

    2. 检查以后发现这是可能存在变量冲突问题,可以更新到最新版本以解决此问题。

  8. 花不花说道:

    调试或开始采集,直接4040

    1. 404错误么?可以看一下我们的说明,里面有写如何解决。

  9. zhujiwiki说道:

    你强啊,下来了,整个站试下。
    是不是就可以不用火车头了

    1. 试一下吧,我们的插件还在更新中。有什么问题的话可以留言或者加群交流。

  10. 照着教程和实例琢磨了半天,终于搞懂了,已经能够成功采集了,非常感谢免费提供这个优秀插件。
    现阶段可定制的地方稍少了点,希望继续增加。
    例如:
    1、发布时间增加一个随机数,这样就不会一堆文章的发布时间集中在一起。
    2、任务增加指定时间自动后台执行或者访问页面触发执行。
    3、简繁转换

    1. 感谢使用我们的插件,您提的建议我们会在后续版本中更新。

  11. 大鱼说道:

    严重支持开源。。加油更新到 0.1.0啊

  12. 达到说道:

    感谢开源,默默支持

  13. 666说道:

    :razz: 老板可以采集BT种子吗

    1. 这个插件不能采集BT种子。这里有可以采集magnet链接的:https://www.jiloc.com/43136.html

  14. 老王说道:

    用不了,规则任务弄好了,开始采集,跳转到http://xxx.com/jpost//?jtask=mm
    404了

    1. 1、该bug我们已记录。
      2、你的网站是否未开启wordpress rewrite,将rewrite打开后再试下看看。

  15. 留作业说道:

    前来贺喜

  16. 采集侠说道:

    不会用啊。

    1. 晚点我们会给出详细说明的。
      但是使用这个必须要有一定的html功底才行。

      1. 采集侠说道:

        能不能搞得简单点,像wp-autopost那样

        1. 亲,这个是0.0.1版。后期会更加简单易用。希望大家多提意见~

发表评论

电子邮件地址不会被公开。 必填项已用*标注

Scroll Up