Python爬取企业财务报表_第1页
Python爬取企业财务报表_第2页
Python爬取企业财务报表_第3页
Python爬取企业财务报表_第4页
Python爬取企业财务报表_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Python爬取企业财务报表Contents目录01网络爬取上市公司财务报表02爬取网站观察03爬虫脚本设计网络爬取上市公司财务报表PART01网络爬取上市公司财务报表

网络爬虫可以进行单企业数据采集、多企业数据采集、多行业多企业数据采集。例如我们从上交所网站爬取不同行业和企业、不同年度的资产负债表、利润表、现金流量表等年报和季报数据。爬取网站观察PART02爬取网站观察(1)使用chrome浏览器打开上交所网站/,随意打开任意财报详情页。(2)按F12键调出开发者模式窗口;

(3)将开发模式窗口切换到Network标签页,选择XHR子标签;(4)点击网页中不同的报表,注意查看开发模式窗口中新出现的地址;

(5)点击新出现的地址,选择Preview标签,确认里面的内容是我们所需要采集的数据,确定的话就可以将这个地址填写到python代码里的URL内。爬取网站观察爬虫脚本设计PART03爬虫脚本设计查看示例代码,找到python脚本所引入的库;在code里修改代码,定义要采集的单个企业,输入该企业的信息(交易代码、企业简称、首字母),定义要采集的多家企业,参照示例代码内容,()为一个企业,用英文逗号分隔;在year列表中修改采集的报表年份为2020;在report_period_id里定义要采集的报表季度(5000为年报);点击“运行”按钮;等待运行日志提示数据采集完成后,查看数据内容是否合适。爬虫脚本设计根据本上市公司信息可以添加如下get参数值,/profit/showmap.do?catlog_type=lrb&report_year=2020&stock_id=600093&report_period_id=5000这个访问后结果。爬虫脚本设计varcatlog_type="jbxx"; varreport_year='2020'; varstock_id='600093'; $("input[name=sel]").val(stock_id); varcompanyName='*ST易见'; varstockIdName=stock_id.replace(".SS","")+'['+companyName+']'; varreport_period_id='5000';这样利润表的结果表就出来了,4000是一季度报,4400三季度,1000是半年报。爬虫脚本设计根据如上分析,就可以用PythonRequests和json包对返回的数据进行分析获取。爬虫脚本设计

首先导入requests和json包,然后把返回的结果写入文件,这样方便以后继续分析,再重新load进来根据自己的需要获取相应的数据。爬虫脚本设计

获取多个企业就是用循环语句循环提交获取写入文件,这时候最好定义一个函数这样就比较容易调用。爬虫脚本设计

先定义一个函数,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论