记用Fiddler抓包爬取pc端微信公众号文章

首先呢,得会用Fiddler这个工具,他下载比较容易,网上一找一大堆,下载完之后呢要对他进行一些设置,我抓取的是pc端的微信文章,这里有详细的配置说明(https://blog.csdn.net/Tester_xjp/article/details/80087014),配置完成之后,可以打开浏览器随便查询一下,看有没有流量包,如果有,则说明配置成功。下面就让我们进行微信公众号的爬虫吧,在流量包很多的情况下如图所示:
在这里插入图片描述
点击图中所示图标,下拉菜单中点击remove all 即可清除所有的包,然后进入你要爬取的公众号,在历史信息中下拉让他刷新,就会有流量包生成,如图:
在这里插入图片描述
点击链接,然后按图中顺序依次点击,就会看到你想要的json数据,上面部分是url和请求头,复制粘贴即可,粘贴完之后就开始写代码啦,

import requests
import time
import json
import pymysql
import random
from lxml import etree


url1 = "https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz=MjM5MjAxNDM4MA==&f=json&offset=1364&count=10&is_ok=1&scene=&uin=MjIzMzAyMTc3Mw%3D%3D&key=89d12b870c1b66b55dda3f5d96949191facfdbe5b85fb04febea6507359e2933e7047e8a492e96459539339c329c204b4ebafb430f7f9abd1140e0f41683cad25e1c63b841858a7210dd801df3e696a3&pass_ticket=i8vG65b0f5w3YbINsxgKoJKE%2BADk1WM8sxZ1LYi22FC3WC5aSatNLYe6YZzz5RdB&wxtoken=&appmsg_token=997_%252FomavAR9WcqYeWKQ_IZYJxtOMPFKYXGaIRpjnQ~~&x5=0&f=json HTTP/1.1"


def weixin_spider(url1,author):
    headers = {
        # 'Host':'mp.weixin.qq.com',
        # 'Connection':'keep-alive',
        # 'Accept': '*/*',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 MicroMessenger/6.5.2.501 NetType/WIFI WindowsWechat QBCore/3.43.901.400 QQBrowser/9.0.2524.400',
        # 'X-Requested-With':'XMLHttpRequest',
        # 'Referer: https':'//mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MjM5MjAxNDM4MA==&uin=MjIzMzAyMTc3Mw%3D%3D&key=904312b286f32b60a8dbd9f5fe33159b791adcb96ba37270028681196ab81e4b243785c64ccfd243be4e72664b413c323ade80dcffa498ed2758ad33bc9a85d30932503340b7e8279cb519c6593c373a&devicetype=Windows+10&version=6206061c&lang=z
# 微信公众号文章爬虫使用说明 (本工具仅供学习研究使用,请遵守相关法律法规,尊重原创内容版权。使用本工具造成的任何问题与开发者无关。抓取的内容请勿用于商业用途) ## 一、程序简介 微信公众号文章爬虫是一款用于抓取微信公众号文章内容的工具,支持提取文章中的文本、图片和视频,并能对内容进行美化重构,生成易于阅读的HTML页面。 ### 主要功能 - 抓取微信公众号文章的文字内容 - 提取并保存文章中的图片资源 - 提取并下载文章中的视频内容 - 对文章进行重构和美化,生成优质HTML页面 - 提供直观的图形界面,操作简便 ## 二、系统要求 - 操作系统:Windows 7/10/11 - Python 3.7或更高版本 - Chrome浏览器(用于抓取视频内容) - 网络连接(用于访问文章和下载资源) ## 三、安装步骤 1. 解压程序包到任意目录 2. 双击运行`setup.bat`进行初始化安装 3. 安装过程会自动安装所需依赖并创建桌面快捷方式 4. 安装完成后可通过桌面快捷方式或`run_gui.bat`启动程序 ## 四、使用方法 ### 图形界面使用(推荐) 1. 双击桌面快捷方式或运行`run_gui.bat`启动程序 2. 选择功能选项卡(文章爬虫文章重构) 3. 文章爬虫: - 输入微信公众号文章链接 - 点击"开始抓取"按钮 - 等待抓取完成后可点击"查看文章"或"打开文件夹" 4. 文章重构: - 点击"浏览"选择已抓取的文章JSON文件 - 点击"开始重构"按钮 - 等待重构完成后可复制或打开生成的HTML文件 ### 命令行使用 1. 抓取单篇文章: ``` python weixin_crawler.py -u "文章URL" ``` 2. 批量抓取文章
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值