爬取微信公众号文章实战笔记

未完成文章

博主原创文章，转载请说明出处，但是不说我也管不了你🏳️

前言

之前想要通过一些微信公众号发布的信息去找找合适的工作岗位，但是微信自带的一些功能不能满足我的需要，所以想做个简单的公众号信息订阅系统，实现自动爬取相关信息并邮件通知信息更新。本文主要记录爬取公众号文章的过程。

实现信息爬虫基本就三种方式：

~~手动打开浏览器实现人工爬虫~~
基于浏览器的爬虫。需要借助浏览器，很臃肿，效率低，各平台适配性低，但是实现起来最简单最可靠。
基于纯HTTP请求的爬虫。无须浏览器，许多语言自带HTTP客户端链接接口，优缺点与上述方式相反。同时对于HTTP请求携带的验证信息的来源又可分为两种
- 手动实现真人操作，获取验证信息并加入到请求里，期间无须额外操作
- 自动生成验证信息，但是需要先破译生成的公式才能生成

考虑到是微信的东西，一些安全加密肯定很复杂，凭我自己能破译的话，几百年后吧。所以还是直接用纯HTTP

实现信息爬虫基本就三种方式：

~~手动打开浏览器实现人工爬虫~~
基于浏览器的爬虫。需要借助浏览器，很臃肿，效率低，各平台适配性低，但是实现起来最简单最可靠。
基于纯HTTP请求的爬虫。无须浏览器，许多语言自带HTTP客户端链接接口，优缺点与上述方式相反。同时对于HTTP请求携带的验证信息的来源又可分为两种
- 手动实现真人操作，获取验证信息并加入到请求里，期间无须额外操作
- 自动生成验证信息，但是需要先破译生成的公式才能生成

考虑到是微信的东西，一些安全加密肯定很复杂，凭我自己能破译的话，几百年后吧。所以还是直接用纯HTTP结合手动去获取验证信息(例如cookie)，去模拟真实用户来请求接口。

“站在巨人的肩膀上！”，牛顿如是说。SO，牛顿都这么说了，直接github仓库看看有没有开源的实现。

编程实践 > 自动化

#原创 #待完成