相关动态
Eastmoney-Spyder:股吧网页数据抓取分析(一)
2024-11-17 18:24

数据来源:热门个股吧 数据字段:阅读、评论、标题、作者、更新时间 实现功能:读取每个股吧的全部页面的数据并写入excel表中

Eastmoney-Spyder:股吧网页数据抓取分析(一)

Eastmoney-Spyder:股吧网页数据抓取分析(一)

我们需要抓取的是全部发帖信息的阅读评论标题作者最后更新时间这五个字段的数据,我一开始想也不是很难,解析一下网页匹配一下对应的标签值就可以了,但后面还是出现了各种各样的问题,需要大家注意一下。


① 网页源代码

首先打开网页的开发者工具(Ctrl+Shift+i,在源代码中查找对应字段的标签结构。

Eastmoney-Spyder:股吧网页数据抓取分析(一) 从图中可以看出,这五个字段分别位于行标签内,对应的属性分别是。想必大家已经有思路了,我们可以通过先获取网页代码,再解析网页查询对应的五个字段,最后做一个提取就可以了。

Eastmoney-Spyder:股吧网页数据抓取分析(一)

② 网页链接

【某一股吧:300059】 点击查看网页链接结构首页第二页 可以看出个股吧链接主要由三部分组成list、名称代码、页数

I.全部个股吧的数字代码

Eastmoney-Spyder:股吧网页数据抓取分析(一) II. 翻页数据

Eastmoney-Spyder:股吧网页数据抓取分析(一)

如何得到不同股吧的所有翻页数据,着实让我找了好久,各种资源我都找了可惜还是没有发现,突然无意之中我找到了解决办法,我直接一个好家伙

跟上述的五类字段一样,我们查看一下页数的代码字段,如下图所示Eastmoney-Spyder:股吧网页数据抓取分析(一) 我的第一个办法是直接解析网页后找到标签下的属性,其内容即为总页数,本来以为原来这么好获取,结果解析完才发现,里的内容是动态的,即是会随页而变化的,故直接requests并不能获取到,但是还是被我发现了玄机Eastmoney-Spyder:股吧网页数据抓取分析(一) 大家可以看这里,里面的内容是,我对比了几个页面后发现其中数字分别代表的是

 

那么这时候,我们就可以直接用累积多年的算力(小学除法)算出该股吧共有,向上取整共页!如果你也脱口而出好家伙的话,请在屏幕下方打出来


基本问题解决了,我们可以开始编写代码了。这部分不讲代码原理,只解释代码功能。如果代码存在问题或不清楚的话,欢迎大家在下方留言,我一定及时回复。

① 获取网页源代码

 

② 解析网页并提取数据字段

 

③ 获取股吧总页数

基于解析的网页直接find_all也是可以的
 

上述代码基本的字段已经可以实现抓取了,结果如下

Eastmoney-Spyder:股吧网页数据抓取分析(一) 可以看到,我这里的时间多了年份,这是由于研究的需要,在基于一次抓取的结果上,进行二次抓取标题所带的链接网页获得的,有关二次抓取的内容,我们再下一节再和大家分享。

Eastmoney-Spyder:股吧网页数据抓取分析(一)


在抓取过程中,我还遇到了很多问题诸如: ① 部分帖子结构不同或存在冗余该如何处理(问董秘等链接) ② 抓取过程中ip被屏蔽自动跳转页面该如何处理(代理IP池) … … 这些内容在后续章节中再和大家分享,下期再见啦

知乎:南浔Pyer
CSDN:南浔Pyer
个人网站:DL小站
GitHub:LeoWang91
    以上就是本篇文章【Eastmoney-Spyder:股吧网页数据抓取分析(一)】的全部内容了,欢迎阅览 ! 文章地址:http://ktsh.xhstdz.com/news/7136.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://ktsh.xhstdz.com/mobile/ , 查看更多   
最新文章
解析国内AI写作平台:创新背后的挑战与突破
一、国内 AI 写作平台兴起近年来,随着人工智能技术的飞速发展,国内 AI 写作平台如雨后春笋般涌现。这些平台利用深度学习、自然
解析百度的绿萝算法怎样识别买卖链接
  作为站长,大家都知道,百度于2013年2月20日推出了最新的搜索引擎算法,起名叫绿萝,公告称这个新算法主要是打击买卖链接的
揭秘刷神马SEO排名秘籍,轻松提升网站搜索地位!
深度解析刷神马SEO排名真相与策略,分享实用技巧,助力网站高效提升排名,轻松占领搜索引擎前列!随着互联网的快速发展,SEO(搜
亚马逊运营必备实用工具
常常看见有卖家小伙伴提问利用什么做数据分析、用什么选品等话题。这里强烈建议各位亚马逊卖家以及准备入驻亚马逊卖家的朋友收藏
如何打造一个高效的营销型企业网站,营销型企业网站的核心特点是什么
打造高效营销型企业网站,需关注用户体验、SEO优化、内容质量及数据分析。核心特点为:用户导向、易用性高、转化路径明确。如何
佛山专业SEO优化助力企业电商营销新飞跃
佛山商品SEO优化公司,凭借专业技术和丰富经验,为企业提供全方位互联网营销解决方案。通过精准关键词优化、内容营销、数据分析
ks秒单关注(快速秒单关注,提升用户转化率)
KS秒单关注是一种快速秒单关注的方法,旨在提升用户的转化率。这种方法通过一系列的策略和技巧,能够快速吸引用户的关注,并使他
密码技术应用员理论知识题及答案.docVIP
PAGEPAGE1密码技术应用员理论知识题及答案单选题1.密码系统试运行报告中,记录的每个问题均应具备唯一标识,其作用是()。A、描
外链自动增加:全面解析和战略规划198
引言外链是搜索引擎优化 (SEO) 至关重要的组成部分,可以提高网站在搜索结果页面 (SERP) 中的排名。然而,有时网站可能会经历外
OpenAI 与马斯克“恩怨”再升级!公开历史邮件,揭秘“控制权”争夺战
OpenAI 与马斯克的法律战已持续数月,核心争议点在于 OpenAI 是否背离了其最初的非营利使命,即让 AI 研究成果惠及所有人。上个
相关文章