Python机器学习:数据建模与分析

副标题:无

作   者:薛薇 等

分类号:

ISBN:9787111674900

微信扫一扫,移动浏览光盘

简介

本书采用理论与实践相结合的方式,引导读者以Python为工具,以机器学习为方法,进行数据的建模与分析。本书共13章,对机器学习的原理部分进行了深入透彻的讲解,对机器学习算法部分均进行了Python实现。除前两章外,各章都给出了可实现的实践案例,并全彩呈现数据可视化图形。本书兼具知识的深度和广度,在理论上突出可读性,在实践上强调可操作性,实践案例具备较强代表性。随书提供全部案例的数据集、源代码、教学PPT、关键知识点,教学辅导视频,具备较高实用性。本书既可以作为数据分析从业人员的参考书,也可作为高等院校数据分析、机器学习等专业课程的教材。扫描关注机械工业出版社计算机分社官方微信订阅号—身边的信息学,回复67490即可获取本书配套资源下载链接。

目录


目录

前言

第1章 机器学习概述 1
1.1 机器学习的发展:人工智能中的
机器学习 1
1.1.1 符号主义人工智能 1
1.1.2 基于机器学习的人工智能 2
1.2 机器学习的核心:数据和数据建模 4
1.2.1 机器学习的学习对象:数据集 4
1.2.2 机器学习的任务:数据建模 6
1.3 机器学习的典型应用 11
1.3.1 机器学习的典型行业应用 11
1.3.2 机器学习在客户细分中的应用 12
1.3.3 机器学习在客户流失分析中的
应用 13
1.3.4 机器学习在营销响应分析中的
应用 14
1.3.5 机器学习在交叉销售中的应用 15
1.3.6 机器学习在欺诈甄别中的应用 16
【本章总结】 16
【本章习题】 17
第2章 Python机器学习基础 18
2.1 Python:机器学习的工具 18
2.2 Python的集成开发环境:
Anaconda 19
2.2.1 Anaconda的简介 19
2.2.2 Anaconda Prompt的使用 20
2.2.3 Spyder的使用 22
2.2.4 Jupyter Notebook的使用 23
2.3 Python第三方包的引用 24
2.4 NumPy使用示例 24
2.4.1 NumPy数组的创建和访问 25
2.4.2 NumPy的计算功能 26
2.5 Pandas使用示例 29
2.5.1 Pandas的序列和索引 29
2.5.2 Pandas的数据框 30
2.5.3 Pandas的数据加工处理 31
2.6 NumPy和Pandas的综合应用:空气质量监测数据的预处理和基本分析 32
2.6.1 空气质量监测数据的预处理 32
2.6.2 空气质量监测数据的基本分析 34
2.7 Matplotlib的综合应用:空气质量监测数据的图形化展示 36
2.7.1 AQI的时序变化特点 37
2.7.2 AQI的分布特征及相关性分析 38
2.7.3 优化空气质量状况的统计图形 40
【本章总结】 41
【本章相关函数】 41
【本章习题】 47
第3章 数据预测与预测建模 49
3.1 数据预测的基本概念 49
3.2 预测建模 50
3.2.1 什么是预测模型 50
3.2.2 预测模型的几何理解 53
3.2.3 预测模型参数估计的基本策略 56
3.3 预测模型的评价 59
3.3.1 模型误差的评价指标 60
3.3.2 模型的图形化评价工具 62
3.3.3 泛化误差的估计方法 64
3.3.4 数据集的划分策略 67
3.4 预测模型的选择问题 69
3.4.1 模型选择的基本原则 69
3.4.2 模型过拟合 69
3.4.3 预测模型的偏差和方差 71
3.5 Python建模实现 73
3.5.1 ROC和P-R曲线图的实现 74
3.5.2 模型复杂度与误差的模拟研究 75
3.5.3 数据集划分和测试误差估计的实现 79
3.5.4 模型过拟合以及偏差与方差的
模拟研究 82
3.6 Python实践案例 86
3.6.1 实践案例1:PM2.5浓度的
回归预测 86
3.6.2 实践案例2:空气污染的分类预测 87
【本章总结】 91
【本章相关函数】 91
【本章习题】 91
第4章 数据预测建模:贝叶斯分类器 93
4.1 贝叶斯概率和贝叶斯法则 93
4.1.1 贝叶斯概率 93
4.1.2 贝叶斯法则 94
4.2 贝叶斯和朴素贝叶斯分类器 94
4.2.1 贝叶斯和朴素贝叶斯分类器的
一般内容 94
4.2.2 贝叶斯分类器的先验分布 96
4.3 贝叶斯分类器的分类边界 99
4.4 Python建模实现 100
4.4.1 不同参数下的贝塔分布 101
4.4.2 贝叶斯分类器和Logistic回归
分类边界的对比 101
4.5 Python实践案例 103
4.5.1 实践案例1:空气污染的分类
预测 103
4.5.2 实践案例2:法律裁判文书中的
案情要素分类 105
【本章总结】 110
【本章相关函数】 111
【本章习题】 111
第5章 数据预测建模:近邻分析 112
5.1 近邻分析:K-近邻法 112
5.1.1 距离:K-近邻法的近邻度量 113
5.1.2 参数K:1-近邻法还是K-近邻法 114
5.1.3 与朴素贝叶斯分类器和Logistic
回归模型的对比 117
5.2 基于观测相似性的加权K-近邻法 117
5.2.1 加权K-近邻法的权重 117
5.2.2 加权K-近邻法的预测 119
5.2.3 加权K-近邻法的分类边界 119
5.3 K-近邻法的适用性 120
5.4 Python建模实现 122
5.4.1 不同参数K下的分类边界 122
5.4.2 不同核函数的特点 123
5.4.3 不同加权方式和K下的分类边界 124
5.5 Python实践案例 125
5.5.1 实践案例1:空气质量等级的
预测 125
5.5.2 实践案例2:国产电视剧的大众
评分预测 127
【本章总结】 129
【本章相关函数】 129
【本章习题】 130
第6章 数据预测建模:决策树 131
6.1 决策树概述 131
6.1.1 什么是决策树 131
6.1.2 分类树的分类边界 133
6.1.3 回归树的回归平面 134
6.1.4 决策树的生长和剪枝 135
6.2 CART的生长 139
6.2.1 CART中分类树的异质性度量 139
6.2.2 CART中回归树的异质性度量 140
6.3 CART的后剪枝 141
6.3.1 代价复杂度和小代价复杂度 141
6.3.2 CART的后剪枝过程 142
6.4 Python建模实现 143
6.4.1 回归树的非线性回归特点 144
6.4.2 树深度对分类边界的影响 145
6.4.3 基尼系数和熵的计算 146
6.5 Python实践案例 147
6.5.1 实践案例1:空气污染的预测
建模 147
6.5.2 实践案例2:医疗大数据应用—
药物适用性研究 151
【本章总结】 154
【本章相关函数】 155
【本章习题】 155
第7章 数据预测建模:集成学习 156
7.1 集成学习概述 157
7.1.1 高方差问题的解决途径 157
7.1.2 从弱模型到强模型的构建 157
7.2 基于重抽样自举法的集成学习 158
7.2.1 重抽样自举法 158
7.2.2 袋装法 158
7.2.3 随机森林 161
7.3 从弱模型到强模型的构建 163
7.3.1 提升法 164
7.3.2 AdaBoost.M1算法 165
7.3.3 SAMME算法和SAMME.R
算法 170
7.3.4 回归预测中的提升法 172
7.4 梯度提升树 174
7.4.1 梯度提升算法 174
7.4.2 梯度提升回归树 178
7.4.3 梯度提升分类树 179
7.5 XGBoost算法 181
7.5.1 XGBoost的目标函数 181
7.5.2 目标函数的近似表达 182
7.5.3 决策树的求解 183
7.6 Python建模实现 185
7.6.1 单棵决策树、弱模型和提升法的
预测对比 186
7.6.2 提升法中高权重样本观测的特点 187
7.6.3 AdaBoost回归预测中损失函数的
选择问题 189
7.6.4 梯度提升算法和AdaBoost的
预测对比 189
7.7 Python实践案例 191
7.7.1 实践案例1:PM2.5浓度的
回归预测 191
7.7.2 实践案例2:空气质量等级的
分类预测 195
【本章总结】 197
【本章相关函数】 197
【本章习题】 198
第8章 数据预测建模:人工神经网络 200
8.1 人工神经网络的基本概念 201
8.2 感知机网络 203
8.3 多层感知机及B-P反向传播算法 213
8.4 Python建模实现 220
8.5 Python实践案例 223
【本章总结】 227
【本章相关函数】 227
【本章习题】 227
第9章 数据预测建模:支持向量机 229
9.1 支持向量分类概述 229
9.2 完全线性可分下的支持向量分类 233
9.3 广义线性可分下的支持向量分类 238
9.4 线性不可分下的支持向量分类 242
9.5 支持向量回归 247
9.6 Python建模实现 252
9.7 Python实践案例 258
【本章总结】 266
【本章相关函数】 266
【本章习题】 266
第10章 特征选择:过滤、包裹和
嵌入策略 267
10.1 特征选择概述 267
10.2 过滤式策略下的特征选择 268
10.3 包裹式策略下的特征选择 278
10.4 嵌入式策略下的特征选择 281
10.5 Python建模实现 288
10.6 Python实践案例 290
【本章总结】 298
【本章相关函数】 298
【本章习题】 299
第11章 特征提取:空间变换策略 300
11.1 特征提取概述 300
11.2 主成分分析 301
11.3 矩阵的奇异值分解 307
11.4 核主成分分析 309
11.5 因子分析 315
11.6 Python建模实现 323
11.7 Python实践案例 331
【本章总结】 334
【本章相关函数】 334
【本章习题】 335
第12章 揭示数据内在结构:聚类分析 336
12.1 聚类分析概述 336
12.2 基于质心的聚类模型:K-均值
聚类 343
12.3 基于连通性的聚类模型:系统
聚类 346
12.4 基于高斯分布的聚类模型:EM
聚类 351
12.5 Python建模实现 356
12.6 Python实践案例:各地区环境
污染的特征的对比分析 367
【本章总结】 370
【本章相关函数】 370
【本章习题】 370
第13章 揭示数据内在结构:特色聚类 371
13.1 基于密度的聚类:DBSCAN
聚类 371
13.2 Mean-Shift聚类 375
13.3 BIRCH聚类 380
13.4 Python建模实现 387
13.5 Python实践案例:商品批发商的
市场细分 394
【本章总结】 397
【本章相关函数】 398
【本章习题】 398


已确认勘误

次印刷

页码 勘误内容 提交人 修订印次

Python机器学习:数据建模与分析
    • 名称
    • 类型
    • 大小

    光盘服务联系方式: 020-38250260    客服QQ:4006604884

    意见反馈

    14:15

    关闭

    云图客服:

    尊敬的用户,您好!您有任何提议或者建议都可以在此提出来,我们会谦虚地接受任何意见。

    或者您是想咨询:

    用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问

    Video Player
    ×
    Audio Player
    ×
    pdf Player
    ×
    Current View

    看过该图书的还喜欢

    some pictures

    解忧杂货店

    东野圭吾 (作者), 李盈春 (译者)

    loading icon