分类分析
分类( Categorization 或 Classification) 就是按照某种标准给对象贴标签( label), 再根据标签来区分归类。例如在水果店,水果会被分门别类地装在不同的销售框中, 在销售框上会标注水果的相关信息,把水果名类比为标签, 再次进货后服务员会根据水果信息, 将对应的水果加入到对应的销售框, 这个过程就叫作分类。
从机器学习上看, 分类作为一种监督学习方法, 它的目标在于通过已有数据的确定类别, 学习得到一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。简单地说,就是在进行分类前, 得到的数据已经标示了数据所属的类别, 分类的目标就是得到一个分类的标准, 使得能够更好地把不同类别的数据区分出来。
要构造分类器,需要有一个训练样本数据集作为输入。分类器需要由人工标注的分类训练语料训练得到, 属于有指导学习范畴。训练集由一组数据库记录或元组构成, 每个元组是一个由有关字段(又称属性或特征) 值组成的特征向量, 此外, 训练样本还有一个类别标记。分类器的构造方法有统计方法、机器学习方法、神经网络方法等。
按照判别数组划分的话,分类算法可以分成二分类和多分类。在日常的生活和工作中,存在很多二分类情况和多分类情况, 如交警在查酒驾的时候要判断司机是否喝酒, 那么喝了酒或未喝酒,就是二分类问题; 如开车到十字路口, 遇到的可能是红灯、绿灯、黄灯,类似这种超过两个分类的问题就称为多分类问题。
常见的分类算法有支持向量机、逻辑回归、决策树、K近邻、随机森林、朴素贝叶斯。
我就详细讲一下决策树吧
决策树
顾名思义, 决策树就像是一棵树, 一棵决策树包含一个根节点、若干个内部节点和若干个叶节点;叶节点对应于决策结果, 其他每个节点则对应于一个属性测试; 每个节点包含的样本集合根据属性测试的结果被划分到子节点中; 根节点包含样本全集, 从根节点到每个叶子节点的路径对应了一个判定测试序列。
决策树易于理解和实现, 人们在学习过程中不需要了解很多的背景知识, 这同时是其能够直接体现数据的特点, 只要通过解释后都有能力去理解决策树所表达的意义。

决策树原理
用决策树解决分类问题可以分为两个步骤,第一步利用给定的数据集合建立一棵决策树模型;第二步利用生成的决策树模型对需要分类的样本进行分类。决策树在构建过程中需要重点解决以下两个问题,第1个问题是如何选择合适的属性作为决策节点去划分数据集合,不同的决策树算法给出了不同的解决方法来划分属性解决此问题;第2个问题是如何在适当位置停止划分,从而得到大小合适的决策树,解决方案是当属性列表为空,或者数据集中样本都已经分类,此时就可以停止决策树分支的形成及划分,从而得到初始的决策树。
实战案例———市民属性与是否购车的关系分析(基于决策树)
1.数据分析
实例提供某市市民的人群类型属性及是否购车数据,需要分析不同类型的市民与购车行为间的关系,要求通过决策树算法,建立市民与购车行为间的逻辑关系,以达成通过市民属性预测购车行为的目标。其中数据文件为ods_bye_car_info.csv
| 字段名 | 类型 | 含义 |
|---|---|---|
| user_id | 数值 | 调查用户 ID |
| age | 数值 | 年龄 |
| gender | 字符串 | 性别 |
| marital_tatus | 字符串 | 婚姻状态 |
| buy_car_sign | 字符串 | 是否购车 |
基于python语言实现
1、导入所需的python语句
1|import numpy as np

1216

被折叠的 条评论
为什么被折叠?



