SparkMllib基础、功能及应用场景、算法分类及应用场景、基础数据类型

本文详细介绍Spark MLlib的功能与应用场景,涵盖分类、回归、聚类等算法,以及特征工程和模型评估。深入探讨Spark MLlib的数据抽象、架构与API,包括RDD、DataFrame和DStream。同时,讲解基础数据类型如向量、矩阵的操作与应用。

SparkMllib基础及特征工程

1.Spark功能及应用场景

  • SparkMllib的功能
    • ML算法:包括了分类、回归、降维、协同过滤、聚类
    • Featurization特征化:特征抽取、特征转换、特征降维、特征选择
    • pipeline管道:tools for constructing,evaluating and tuning ML pipelines
    • Persistence持久化 :模型的保存、读取、管道操作
    • 工具Utilities:提供了线性代数、统计学以及数据处理工具
  • SparkMllib的版本
    • SparkCore数据抽象:RDD
    • SparkSql数据抽象:dataframe
    • SparkStreaming数据抽象化:DStream
    • SparkMllib数据抽象:RDD和DataFrame的抽象
      • DataFrame实现sql以及一些语言的统一的接口
      • DataFrame提供了一套更加友好的API
      • DataFrame可以实现PipeLine的管道操作。
  • SparkMllib的架构
    • MLlib是Spark机器学习库,它是MLBase的一部分,MLBase一共分为一下4部分:
      • MLRunTime:
        • 是基于Spark计算框架,将Spark的分布式计算应用到机器学习领域。
      • MLlib:
        • Spark实现一些常见的机器学习算法和实用程序。
      • MLI:
        • 是一个进行特征提取的和高级ML编程抽象的算法实现的API平台。
      • ML Optimizer:
        • 会选择它认为最适合的已经在内部实现好了的机器学习算法和相关参数来处理用户输入的数据,并返回模型或者其他的帮助分析结果。
    • 算法架构如下:
      • 底层实现
        • 主要包括Spark的运行库、矩阵库和向量库。其中向量接口和矩阵接口基于Nelib和BLAS/LAPACK开发的线性代数库Breeze。MLlib支持本地的密集向量和本地向量,并且支持标量向量;同时支持本地矩阵和分布式矩阵,分布式矩阵分为:RowMatrix、IndexedRowMatrix和CoordinateMatrix等。
      • 算法库
        • 包含广义线性模型、推荐系统、聚类、决策树和评估的算法;
  • SparkMllib基于RDD的API和DataFrame的API的详解
  • SparkMllib的环境搭建
  • SParkSql实现RDD,DF,DS的转换

2.SparkMllib算法分类及应用场景

  • 如何利用SparkMllib构建机器学习推荐架构
    1. 收集用户的行为数据信息和用户静态属性信息(人口统计学信息)
    2. 讲这些数据转化为特征(SparkMllib中特征工程的API进行转换)
    3. 模型训练,包括模型选择、训练、测试环节
    4. 将离线训练好的模型部署到在线模型服务中,用于离线和实时的处理
    5. 通过推荐得到结果在目标页面进行展示,并且返回的一些结果还可以使用其作为营销的重点。
  • SparkMllib支持的哪些分类算法及应用
    • 分类问题:离散值的预测的监督学习问题:垃圾邮件的分类、商品点击分类
      • Logistic regression:逻辑回归
        • Binomial logistic regression:二项逻辑回归
        • Multinomial logistic regression:多项逻辑斯蒂回归
      • Decision tree classifier:决策树分类算法
      • Random forest classifier:随机森林分类算法
      • Gradient-boosted tree classifier:GBDT算法(梯度增加树分类)
      • Linear Support Vector Machine:线性支持向量机
      • Naive Bayes:朴素贝叶斯
  • SparkMllib支持的哪些回归算法及应用
    • 回归问题:连续值的预测的监督学习问题:房价预测、成熟度的预测
    • Lasso regression:Lasso 回归
    • Ridge regression:Ridge 回归
    • Linear Regression:线性回归
    • Decision tree regression:决策树回归
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值