python爬取同花顺_GitHub - Billxxxx/TongHuaShunSpider: 同花顺上市公司基础信息爬虫

本文介绍了一个使用Python Scrapy框架编写的爬虫,用于爬取同花顺网站上的上市公司基础信息,包括股票代码、公司简称、全称、创办日期、上市日期、历史年度营收数据和总市值,并将数据存储到MongoDB。

TongHuaShunSpider

同花顺上市公司基础信息爬虫

##使用方法

安装好环境后直接运行main文件

针对读者:入门

语言:python

目标:爬取上市公司的股票代码、公司简称、公司全称、创办日期、上市日期、历史年度营收数据、总市值。

##结果展示

{ "_id" : { "$oid" : "5c41949eea12859f21423955" },

"share_id" : "000506",

"market_value" : "2954276500.000",

"revenue" : [ "7.69亿", "8.12亿", "13.88亿", "3.57亿", "9.07亿", "10.71亿", "13.27亿", "11.97亿", "10.07亿", "8.97亿", "6.97亿", "804.36万", "5489.42万", "2.09亿", "3.14亿", "3.71亿", "3.44亿", "2.70亿", "9841.64万", "1.54亿", "2.48亿", "2.09亿", "2.32亿", "2.25亿", "2.38亿", false ],

"year" : [ 2017, 2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009, 2008, 2007, 2006, 2005, 2004, 2003, 2002, 2001, 2000, 1999, 1998, 1997, 1996, 1995, 1994, 1993, 1992 ],

"market_time" : "1993-03-12",

"start_time" : "1988-05-11",

"nick_name" : "中润资源",

"name" : "中润资源投资股份有限公司" }

1、在所有公司的入口爬取公司列表,这里可以获取到股票代码以及公司简称。

2、在公司的资料页面,可以获取到公司的全称,里面还有英文名什么的,例。

3、在公司的财政页面,可以获取到总营收,例

4、在一个接口,可以获取到公司的总市值、创办时间、上市时间。例

5、将获取到的信息提交到pipeline,并存到MongoDB。

##环境准备

1、使用scrapy建立一个项目

2、创建mongo数据库,详细步骤请百度

##实现

新建一个爬虫,我这里名为

name = "share_main"

添加允许的域名

allowed_domains = [

"q.10jqka.com.cn",

"stockpage.10jqka.com.cn",

"ba

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值