推广 热搜: 行业  机械  设备    系统  教师  经纪  参数    蒸汽 

如何用python爬取公众号文章搜狗微信搜索_基于搜狗微信搜索的微信公众号爬虫 – we......

   日期:2024-12-19     移动:http://ktsh.xhstdz.com/mobile/quote/84884.html

基于搜狗微信搜索的微信公众号爬虫

项目简介

基于搜狗微信搜索的微信公众号爬虫 可以抓取指定公众号的文章信息

项目使用

一、使用说明

1、在mysql数据库中创建数据库,比如Jubang,数据格式为utf8mb4,然后导入jubang.sql文件,创建对应的数据库表

2、修改config.py文件中对应的设置,打码平台配置ruokuai这个一定要设置,否则出现验证码就不能正常工作了

3、python对应的库的安装好,pymysql、request、lxml、PIL、werkzeug等

4、手动或自动在add_mp_list表中增加数据,然后运行auto_add_mp.py文件。 比如可以这样用:给auto_add_mp.py设定一个定时任务,5分钟或10分钟,然后前台页面文件让使用者添加待抓取的 公众号信息,然后定时任务执行时就可以把这些公众号加入待抓取列表了 add_mp_list中 name字段是模糊抓取,会根据输入的名称模糊加入10个公众号 wx_hao字段是精确抓取,这个是公众号的微信号,只抓取一个 这两个字段可以任意填入一个就行

5、执行updatemp.py文件,文件说明看后面。使用中可以给该文件设定定时任务30分钟或其它间隔,每隔一定时间,运行该 文件就会抓取已添加的公众号是否有新文章发出来。 第一次使用会抓取公众号的最近10条群发数据

6、执行updatewenzhang.py文件,该文件是抓取文章阅读及点攒数的。最新的数据会写入wenzhang_info表中,并且会在表wenzhang_statistics中 添加增量记录,可以根据wenzhang_statistics表中的数据生成曲线图 使用中可以给该文件添加5分钟或其它时间的定时任务,这样就可以来生成对应的阅读曲线图了

二、文件说明

1、updatemp.py 该文件遍历待抓取列表(数据库表:mp_info),查询表中的公众号是否有新文章发布,如果有,就抓取新的文章信息并 放入数据库表wenzhang_info中

2、updatewenzhang.py 该文件遍历文章表,然后抓取24小时之内的文章阅读数据存入表wenzhang_info和表wenzhang_statistics中

本文地址:http://ktsh.xhstdz.com/quote/84884.html    物流园资讯网 http://ktsh.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号