爬取微信公众号文章实战笔记

未完成文章

博主原创文章,转载请说明出处,但是不说我也管不了你🏳️

前言

之前想要通过一些微信公众号发布的信息去找找合适的工作岗位,但是微信自带的一些功能不能满足我的需要,所以想做个简单的公众号信息订阅系统,实现自动爬取相关信息并邮件通知信息更新。本文主要记录爬取公众号文章的过程。

正文

实现信息爬虫基本就三种方式:

  • 手动打开浏览器实现人工爬虫
  • 基于浏览器的爬虫。需要借助浏览器,很臃肿,效率低,各平台适配性低,但是实现起来最简单最可靠。
  • 基于纯HTTP请求的爬虫。无须浏览器,许多语言自带HTTP客户端链接接口,优缺点与上述方式相反。同时对于HTTP请求携带的验证信息的来源又可分为两种
    • 手动实现真人操作,获取验证信息并加入到请求里,期间无须额外操作
    • 自动生成验证信息,但是需要先破译生成的公式才能生成

考虑到是微信的东西,一些安全加密肯定很复杂,凭我自己能破译的话,几百年后吧。所以还是直接用纯HTTP

一、选择爬虫实现方式

实现信息爬虫基本就三种方式:

  • 手动打开浏览器实现人工爬虫
  • 基于浏览器的爬虫。需要借助浏览器,很臃肿,效率低,各平台适配性低,但是实现起来最简单最可靠。
  • 基于纯HTTP请求的爬虫。无须浏览器,许多语言自带HTTP客户端链接接口,优缺点与上述方式相反。同时对于HTTP请求携带的验证信息的来源又可分为两种
    • 手动实现真人操作,获取验证信息并加入到请求里,期间无须额外操作
    • 自动生成验证信息,但是需要先破译生成的公式才能生成

考虑到是微信的东西,一些安全加密肯定很复杂,凭我自己能破译的话,几百年后吧。所以还是直接用纯HTTP结合手动去获取验证信息(例如cookie),去模拟真实用户来请求接口。

二、文章接口分析

“站在巨人的肩膀上!”,牛顿如是说。SO,牛顿都这么说了,直接github仓库看看有没有开源的实现。

附录

附录1

附录2

参考资料

  1. 作者、其他主要作者...,题名[文献类型标识]:引用页码,出版地:出版者,获取和访问路径,文献更新日期或者出版年 ↩︎