python爬取转转商品列表

本文介绍了一种使用Python的BeautifulSoup库从58同城网站爬取平板电脑销售信息的方法。通过解析网页结构,获取了商品分类、标题、价格、地区及浏览次数等详细信息。

爬取内容:http://bj.58.com/pbdn/0/

爬取内容要求:

http://study.163.com/course/courseLearn.htm?courseId=1002810012#/learn/text?lessonId=1003459155&courseId=1002810012

爬取代码如下:

from bs4 import BeautifulSoup
import requests
import time

url='http://bj.58.com/pbdn/0/'
info=[]

def get_attr(url):
    wb_data=requests.get(url)
    time.sleep(1)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    classifys = soup.select('#nav > div > span > a ')
    titles = soup.select("body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.box_left_top > h1")
    prices = soup.select( 'body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.info_massege.left > div.price_li > span > i ')
    areas = soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.info_massege.left > div.palce_li > span > i')
    browserNums = soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.box_left_top > p > span.look_time')
    data={
        'classify':classifys[3].get_text().strip(),
        'title':  titles[0].get_text(),
        'price': prices[0].get_text(),
        'area':areas[0].get_text(),
        'view':browserNums[0].get_text()
    }
    print(data)


init_data=requests.get(url)
soup0=BeautifulSoup(init_data.text,'lxml')
accurates=soup0.select('#jingzhun > tbody > tr > td.tc > p')

links=soup0.select('td.t a.t')
for link in links:
    url3=link.get("href")
    if"zhuanzhuan" in url3:
        info.append(url3)

for i in info:
   print(get_attr(i))

爬取结果如下:

{'classify': '北京平板电脑', 'title': 'ipad Pro 国行  512G  10.5寸', 'price': '5580', 'area': '北京-丰台', 'view': '15次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad Pro 12.9', 'price': '5678', 'area': '北京-朝阳', 'view': '110次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipad pro12.9二代', 'price': '5300', 'area': '北京-丰台', 'view': '165次浏览'}
None
{'classify': '北京平板电脑', 'title': '苹果ipad pro256G最大内存12.9英寸大屏幕', 'price': '5500', 'area': '北京-东城', 'view': '75次浏览'}
None
{'classify': '北京平板电脑', 'title': '12.9寸 iPad Pro2 256金色官换全新带包装', 'price': '6300', 'area': '北京-丰台', 'view': '166次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipad por', 'price': '4500', 'area': '北京-宣武', 'view': '483次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPadmini4 128G', 'price': '2688', 'area': '北京-海淀', 'view': '149次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipadpro12.9 2017款4g 512g国行9.9新', 'price': '7000', 'area': '北京-海淀', 'view': '792次浏览'}
None
{'classify': '北京平板电脑', 'title': '滚滚滚滚滚', 'price': '8.9万', 'area': '北京-顺义', 'view': '73次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad Pro 9.7寸+键盘拆封玩了几天,一直闲置', 'price': '4950', 'area': '北京-朝阳', 'view': '228次浏览'}
None
{'classify': '北京平板电脑', 'title': 'IPad pro 10.5   国行  256G', 'price': '4800', 'area': '北京-海淀', 'view': '823次浏览'}
None
{'classify': '北京平板电脑', 'title': '17款iPad Pro 12.9美版4G灰色金色', 'price': '5800', 'area': '北京-海淀', 'view': '141次浏览'}
None
{'classify': '北京平板电脑', 'title': '北京专业收卡小李竭诚为你服务京东商通中欣王府井', 'price': '9999', 'area': '北京-崇文', 'view': '479次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad mini 九五成新 16G闲置转了', 'price': '899', 'area': '北京-朝阳', 'view': '7221次浏览'}
None
{'classify': '北京平板电脑', 'title': 'IPad Pro 9.7英寸深空灰128G+cellular', 'price': '4000', 'area': '北京-朝阳', 'view': '4846次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipadpro10.5寸', 'price': '7888', 'area': '北京-海淀', 'view': '437次浏览'}
None
{'classify': '北京平板电脑', 'title': '刚买不到一个月', 'price': '5999', 'area': '北京-怀柔', 'view': '913次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad pro 10.5 64G 99成新', 'price': '6300', 'area': '北京-朝阳', 'view': '1344次浏览'}
None
{'classify': '北京平板电脑', 'title': '苹果Apple新款iPad Pro 12.9 256G 插卡', 'price': '5999', 'area': '北京-西城', 'view': '1501次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipadpro', 'price': '5000', 'area': '北京-朝阳', 'view': '848次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad pro  12.9 .全新 ,256G', 'price': '6600', 'area': '北京-丰台', 'view': '239次浏览'}
None
{'classify': '北京平板电脑', 'title': '公司年会发的ipad pro 9.7寸的全套产品,诚心的密', 'price': '6000', 'area': '北京-朝阳', 'view': '3082次浏览'}
None
{'classify': '北京平板电脑', 'title': '作为一个专业的买手 分享下北京的骗子手段', 'price': '10万', 'area': '北京-朝阳', 'view': '5932次浏览'}
None
{'classify': '北京平板电脑', 'title': 'iPad mini', 'price': '960', 'area': '北京-朝阳', 'view': '3944次浏览'}
None
{'classify': '北京平板电脑', 'title': 'ipad air 2 金色 64GB', 'price': '3000', 'area': '北京-西城', 'view': '2197次浏览'}
None

很明显爬取出来的结果每个都莫名奇妙的出现了一个none  这是为什么呢?

我也不知道orz


采集闲鱼游泳卡转让信息,可自己在url中自定义要采集的二手商品信息以及筛选商品价格,采集完成并发送邮件通知 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值