TongHuaShunSpider
同花顺上市公司基础信息爬虫
##使用方法
安装好环境后直接运行main文件
针对读者:入门
语言:python
目标:爬取上市公司的股票代码、公司简称、公司全称、创办日期、上市日期、历史年度营收数据、总市值。
##结果展示
{ "_id" : { "$oid" : "5c41949eea12859f21423955" },
"share_id" : "000506",
"market_value" : "2954276500.000",
"revenue" : [ "7.69亿", "8.12亿", "13.88亿", "3.57亿", "9.07亿", "10.71亿", "13.27亿", "11.97亿", "10.07亿", "8.97亿", "6.97亿", "804.36万", "5489.42万", "2.09亿", "3.14亿", "3.71亿", "3.44亿", "2.70亿", "9841.64万", "1.54亿", "2.48亿", "2.09亿", "2.32亿", "2.25亿", "2.38亿", false ],
"year" : [ 2017, 2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009, 2008, 2007, 2006, 2005, 2004, 2003, 2002, 2001, 2000, 1999, 1998, 1997, 1996, 1995, 1994, 1993, 1992 ],
"market_time" : "1993-03-12",
"start_time" : "1988-05-11",
"nick_name" : "中润资源",
"name" : "中润资源投资股份有限公司" }
1、在所有公司的入口爬取公司列表,这里可以获取到股票代码以及公司简称。
2、在公司的资料页面,可以获取到公司的全称,里面还有英文名什么的,例。
3、在公司的财政页面,可以获取到总营收,例
4、在一个接口,可以获取到公司的总市值、创办时间、上市时间。例
5、将获取到的信息提交到pipeline,并存到MongoDB。
##环境准备
1、使用scrapy建立一个项目
2、创建mongo数据库,详细步骤请百度
##实现
新建一个爬虫,我这里名为
name = "share_main"
添加允许的域名
allowed_domains = [
"q.10jqka.com.cn",
"stockpage.10jqka.com.cn",
"ba

本文介绍了一个使用Python Scrapy框架编写的爬虫,用于爬取同花顺网站上的上市公司基础信息,包括股票代码、公司简称、全称、创办日期、上市日期、历史年度营收数据和总市值,并将数据存储到MongoDB。
4501

被折叠的 条评论
为什么被折叠?



