python大数据分析与应用“一课一得”

分类分析

分类( Categorization 或 Classification) 就是按照某种标准给对象贴标签( label), 再根据标签来区分归类。例如在水果店,水果会被分门别类地装在不同的销售框中, 在销售框上会标注水果的相关信息,把水果名类比为标签, 再次进货后服务员会根据水果信息, 将对应的水果加入到对应的销售框, 这个过程就叫作分类。
从机器学习上看, 分类作为一种监督学习方法, 它的目标在于通过已有数据的确定类别, 学习得到一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。简单地说,就是在进行分类前, 得到的数据已经标示了数据所属的类别, 分类的目标就是得到一个分类的标准, 使得能够更好地把不同类别的数据区分出来。
要构造分类器,需要有一个训练样本数据集作为输入。分类器需要由人工标注的分类训练语料训练得到, 属于有指导学习范畴。训练集由一组数据库记录或元组构成, 每个元组是一个由有关字段(又称属性或特征) 值组成的特征向量, 此外, 训练样本还有一个类别标记。分类器的构造方法有统计方法、机器学习方法、神经网络方法等。
按照判别数组划分的话,分类算法可以分成二分类和多分类。在日常的生活和工作中,存在很多二分类情况和多分类情况, 如交警在查酒驾的时候要判断司机是否喝酒, 那么喝了酒或未喝酒,就是二分类问题; 如开车到十字路口, 遇到的可能是红灯、绿灯、黄灯,类似这种超过两个分类的问题就称为多分类问题。

常见的分类算法有支持向量机、逻辑回归、决策树、K近邻、随机森林、朴素贝叶斯。

我就详细讲一下决策树

决策树

顾名思义, 决策树就像是一棵树, 一棵决策树包含一个根节点、若干个内部节点和若干个叶节点;叶节点对应于决策结果, 其他每个节点则对应于一个属性测试; 每个节点包含的样本集合根据属性测试的结果被划分到子节点中; 根节点包含样本全集, 从根节点到每个叶子节点的路径对应了一个判定测试序列。
决策树易于理解和实现, 人们在学习过程中不需要了解很多的背景知识, 这同时是其能够直接体现数据的特点, 只要通过解释后都有能力去理解决策树所表达的意义。

决策树

决策树原理

用决策树解决分类问题可以分为两个步骤,第一步利用给定的数据集合建立一棵决策树模型;第二步利用生成的决策树模型对需要分类的样本进行分类。决策树在构建过程中需要重点解决以下两个问题,第1个问题是如何选择合适的属性作为决策节点去划分数据集合,不同的决策树算法给出了不同的解决方法来划分属性解决此问题;第2个问题是如何在适当位置停止划分,从而得到大小合适的决策树,解决方案是当属性列表为空,或者数据集中样本都已经分类,此时就可以停止决策树分支的形成及划分,从而得到初始的决策树。

实战案例———市民属性与是否购车的关系分析(基于决策树)

1.数据分析

实例提供某市市民的人群类型属性及是否购车数据,需要分析不同类型的市民与购车行为间的关系,要求通过决策树算法,建立市民与购车行为间的逻辑关系,以达成通过市民属性预测购车行为的目标。其中数据文件为ods_bye_car_info.csv

字段名 类型 含义
user_id 数值 调查用户 ID
age 数值 年龄
gender 字符串 性别
marital_tatus 字符串 婚姻状态
buy_car_sign 字符串 是否购车
基于python语言实现

1、导入所需的python语句

1|import numpy as np
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值