python大数据分析与应用“一课一得”

最新推荐文章于 2026-06-28 11:41:56 发布

原创

最新推荐文章于 2026-06-28 11:41:56 发布 · 1.6k 阅读

标签

#python

分类分析

分类( Categorization 或 Classification) 就是按照某种标准给对象贴标签( label), 再根据标签来区分归类。例如在水果店，水果会被分门别类地装在不同的销售框中，在销售框上会标注水果的相关信息，把水果名类比为标签，再次进货后服务员会根据水果信息，将对应的水果加入到对应的销售框，这个过程就叫作分类。
从机器学习上看，分类作为一种监督学习方法，它的目标在于通过已有数据的确定类别，学习得到一个分类函数或分类模型(也常常称作分类器)，该模型能把数据库中的数据项映射到给定类别中的某一个类中。简单地说，就是在进行分类前，得到的数据已经标示了数据所属的类别，分类的目标就是得到一个分类的标准，使得能够更好地把不同类别的数据区分出来。
要构造分类器，需要有一个训练样本数据集作为输入。分类器需要由人工标注的分类训练语料训练得到，属于有指导学习范畴。训练集由一组数据库记录或元组构成，每个元组是一个由有关字段(又称属性或特征) 值组成的特征向量，此外，训练样本还有一个类别标记。分类器的构造方法有统计方法、机器学习方法、神经网络方法等。
按照判别数组划分的话，分类算法可以分成二分类和多分类。在日常的生活和工作中，存在很多二分类情况和多分类情况，如交警在查酒驾的时候要判断司机是否喝酒，那么喝了酒或未喝酒，就是二分类问题；如开车到十字路口，遇到的可能是红灯、绿灯、黄灯，类似这种超过两个分类的问题就称为多分类问题。

常见的分类算法有支持向量机、逻辑回归、决策树、K近邻、随机森林、朴素贝叶斯。

我就详细讲一下决策树吧

决策树

顾名思义，决策树就像是一棵树，一棵决策树包含一个根节点、若干个内部节点和若干个叶节点；叶节点对应于决策结果，其他每个节点则对应于一个属性测试；每个节点包含的样本集合根据属性测试的结果被划分到子节点中；根节点包含样本全集，从根节点到每个叶子节点的路径对应了一个判定测试序列。
决策树易于理解和实现，人们在学习过程中不需要了解很多的背景知识，这同时是其能够直接体现数据的特点，只要通过解释后都有能力去理解决策树所表达的意义。

决策树

决策树原理

用决策树解决分类问题可以分为两个步骤，第一步利用给定的数据集合建立一棵决策树模型;第二步利用生成的决策树模型对需要分类的样本进行分类。决策树在构建过程中需要重点解决以下两个问题，第1个问题是如何选择合适的属性作为决策节点去划分数据集合，不同的决策树算法给出了不同的解决方法来划分属性解决此问题;第2个问题是如何在适当位置停止划分，从而得到大小合适的决策树，解决方案是当属性列表为空，或者数据集中样本都已经分类，此时就可以停止决策树分支的形成及划分，从而得到初始的决策树。

实战案例———市民属性与是否购车的关系分析（基于决策树）

1.数据分析

实例提供某市市民的人群类型属性及是否购车数据，需要分析不同类型的市民与购车行为间的关系，要求通过决策树算法，建立市民与购车行为间的逻辑关系，以达成通过市民属性预测购车行为的目标。其中数据文件为ods_bye_car_info.csv

字段名	类型	含义
user_id	数值	调查用户 ID
age	数值	年龄
gender	字符串	性别
marital_tatus	字符串	婚姻状态
buy_car_sign	字符串	是否购车

基于python语言实现

1、导入所需的python语句

1|import numpy as np

最低0.47元/天解锁文章