微信扫一扫,移动浏览光盘
简介
SQL是数据查询的基本语言,Excel是数据分析和展示的*常见工具。两者结合,可以组成一个强大且易于理解的业务数据分析工具。很多类重要的数据分析并不需要复杂且昂贵的数据挖掘工具。答案就在你的电脑桌上。 这是一本实用指南,作者Gordon S. Linoff是数据挖掘领域的权威专家。书中介绍了如何使用SQL和Excel来设计并完成复杂的数据分析。本书的第1版被广泛认可,第2版涵盖了对SQL和Excel新功能的介绍,同时包括新的技术和实际业务示例。第2版介绍了业务经理和数据分析人员所需掌握的*信息。 本书首先介绍数据挖掘所用的SQL基础知识,如何使用Excel展示结果,以及用于理解数据的简单的统计学概念。熟悉执行SQL和操作Excel后,本书介绍了核心分析技术。本书内容逐步从基础查询扩展到复杂的应用,使读者能够学习到某种数据分析的使用原因和时机,如何设计和实现,以及展示数据分析结果的强大方法。每一步都详细解释了业务环境、技术方法以及在所熟悉工具中的具体实现。 随着对本书的阅读,你会发现很多知识点,包括地理信息的重要性,图表中的数据随时间的变化方式,如何使用生存分析理解客户任期和变动,以及影响生存率的因素。同时,还会探索到一些方法,包括分析客户的购买模式、分析购物车以及计算关联规则。此外,本书还包含重要的SQL数据挖掘模型(线性回归模型、朴素贝叶斯模型等)、建立客户签名所需的信息、用于分析结果集的模型、包含累积增量图表和ROC图表、使用SQL的*实践、提高查询性能的方法等。
目录
第1章 数据挖掘者眼中的SQL 1
1.1 数据库、SQL和大数据 2
1.1.1什么是大数据? 2
1.1.2关系型数据库 3
1.1.3Hadoop和Hive 3
1.1.4NoSQL和其他类型的数据库 3
1.1.5SQL 4
1.2 绘制数据结构 4
1.2.1什么是数据模型? 5
1.2.2什么是表? 5
1.2.3什么是实体-关系图表? 8
1.2.4邮政编码表 9
1.2.5订阅数据集 10
1.2.6订单数据集 11
1.2.7关于命名的提示 12
1.3 使用数据流描述数据分析12
1.3.1什么是数据流? 13
1.3.2数据流、SQL和关系代数 16
1.4SQL查询 16
1.4.1做什么,而不是怎么去做 16
1.4.2SELECT语句 17
1.4.3一个基础的SQL查询 17
1.4.4一个基本的SQL求和查询 19
1.4.5联接表的意义 20
1.4.6 SQL的其他重要功能 26
1.5 子查询和公用表表达式 29
1.5.1用于命名变量的子查询 29
1.5.2处理统计信息的子查询 32
1.5.3子查询和IN 33
1.5.4用于UNION ALL的子查询 37
1.6 小结 38
第2章 表中有什么?开始数据探索39
2.1 什么是数据探索? 40
2.2Excel中的绘图 40
2.2.1基础图表:柱形图 41
2.2.2单元格中的条形图 45
2.2.3柱形图的有用变化形式 47
2.2.4其他类型的图表 50
2.3 迷你图 53
2.4 列中包含的值 55
2.4.1直方图 55
2.4.2计数的直方图 58
2.4.3计数的累积直方图 60
2.4.4数字值的直方图(频率) 60
2.5 探索更多的值——最小值、最大
值和模式 64
2.5.1最小值和最大值 64
2.5.2最常见的值(模式) 65
2.6 探索字符串值 66
2.6.1长度的直方图 66
2.6.2起始或结尾包含空白字符
的字符串 66
2.6.3处理大小写问题 67
2.6.4字符串中存储的字符是
什么? 67
2.7 探索两个列中的值 69
2.7.1每个州的平均销售额
是多少? 70
2.7.2在一个单独的订单中,产品重复
出现的频率是多少? 70
2.7.3哪个州的American Express
用户最多? 73
2.8 由一个列的数据扩展到所有列
的数据汇总 73
2.8.1针对单列的汇总 74
2.8.2返回表中所有列的查询 76
2.8.3使用SQL生成汇总编码 76
2.9 小结 78
第3章 不同之处是如何不同? 79
3.1 基本的统计学概念 80
3.1.1虚拟假设 80
3.1.2可信度和概率 81
3.1.3正态分布 82
3.2 平均值的区别有多大? 85
3.2.1方法 85
3.2.2子集平均值的标准差 85
3.2.3三个方法 87
3.3 对表做抽样 89
3.3.1随机抽样 89
3.3.2可重复的随机样本 90
3.3.3分层比例抽样 91
3.3.4平衡的样本 92
3.4 计数的可能性 93
3.4.1有多少男性成员? 96
3.4.2有多少加利福尼亚人? 98
3.4.3虚拟假设和可信度 99
3.4.4有多少客户仍然是活跃
客户? 100
3.4.5比率或数字? 103
3.5 概率和它们的统计 104
3.5.1概率的标准差 104
3.5.2概率的置信区间 105
3.5.3概率的不同 106
3.5.4保守的下限值 107
3.6 卡方检验 107
3.6.1期望值 108
3.6.2卡方计算 108
3.6.3卡方分布 109
3.6.4SQL中的卡方检验 111
3.6.5州和产品之间的特殊关系 112
3.7 月份和支付类型与不同产品
类型的特殊关系 114
3.7.1多维卡方 114
3.7.2使用SQL查询 115
3.7.3结果 115
3.8 小结 116
第4章 发生的地点在何处? 119
4.1 纬度和经度 120
4.1.1纬度和经度的定义 120
4.1.2度数、分钟和秒 121
4.1.3两个位置之间的距离 122
4.1.4包含邮政编码的图片 128
4.2 人口统计 131
4.2.1极端情况:最富有的和最贫
穷的人 132
4.2.2分别在使用订单和不使用订
单的情况下比较邮政编码 137
4.3 地理等级 142
4.3.1州中最富有的邮政编码 142
4.3.2州中拥有最多订单的邮政
编码 143
4.3.3地理数据中有趣的层级
结构 145
4.3.4计算郡的财富 148
4.3.5财富值的分布 150
4.3.6在郡中,哪个邮政编码是相对
最富有的? 151
4.3.7拥有最高的相对订单占有
份额的郡 152
4.4 在Excel中绘制地图 155
4.4.1为什么绘制地图? 155
4.4.2不能绘图 156
4.4.3网络地图 156
4.4.4邮政编码散点图之上的州
边界 157
4.5 小结 159
第5章 关于时间 161
5.1 数据库中的日期和时间162
5.2 开始调研日期 166
5.2.1确认日期中没有时间 166
5.2.2根据日期比较计数 167
5.2.3订单数和订单大小 172
5.2.4星期 175
5.3 两个日期之间有多长?178
5.3.1以天为单位的持续时间 178
5.3.2以星期为单位的持续时间 180
5.3.3以月为单位的持续时间 180
5.3.4有多少个星期一? 181
5.3.5下一个周年纪念日(或生日)
是什么时候? 184
5.4 跨年比较 188
5.4.1以天为单位比较 188
5.4.2以星期为单位比较 189
5.4.3以月为单位比较 190
5.5 以天计算活跃客户数量196
5.5.1某天的活跃客户数量 196
5.5.2每天的活跃客户数量 196
5.5.3有多少不同类型的客户? 198
5.5.4不同任期时段的客户数量 198
5.5.5只使用SQL计算活跃客户 201
5.6Excel中的简单图表动画 203
5.6.1从订单生成日期到运货
日期 203
5.6.2订单延时在每年中的变化 205
5.7 小结 208
第6章 客户的持续时间有多久?使用
生存分析理解客户和他们的
价值 209
6.1 生存分析 210
6.1.1平均寿命 211
6.1.2医学研究 212
6.1.3关于风险率的示例 212
6.2 风险计算 213
6.2.1数据调研 214
6.2.2风险率 216
6.2.3客户可视化:时间与任期 217
6.2.4截尾 219
6.3 生存率和保留率 220
6.3.1生存率的点的估计 220
6.3.2计算任意任期的生存率 221
6.3.3在SQL中计算生存率 222
6.3.4简单的客户保留率计算 225
6.3.5保留率和生存率的区别 226
6.3.6风险率和生存率的简单
示例 227
6.4 对比不同的客户分组 230
6.4.1市场总结 230
6.4.2市场分层 231
6.4.3生存率比例 234
6.4.4条件生存率 234
6.5 随时间变化的生存率 236
6.5.1特定风险率随时间的变化 236
6.5.2按照起始年份分类的客户
生存率 238
6.5.3之前的生存率什么样? 239
6.6 由生存率衍生出来的重要
指标 241
6.6.1估算生存点 241
6.6.2客户任期的中间值 242
6.6.3客户生命周期的中间值 242
6.6.4风险率的置信度 243
6.7 使用生存率计算客户价值245
6.7.1估算收入 246
6.7.2对个体的未来收入的估算 247
6.7.3当前客户分组的收入估算 249
6.7.4所有客户未来收入的估算 251
6.8 预测 253
6.8.1对已有客户的预测 254
6.8.2对新开始者的预测 258
6.9 小结 259
第7章 影响生存率的因素:客户
任期 261
7.1 哪些因素是重要的,何时
重要? 262
7.1.1方法说明 262
7.1.2使用平均值比较数字因素 264
7.1.3风险比例 268
7.2 左截断 271
7.2.1认识左截断 271
7.2.2左截断的影响 273
7.2.3如何从理论上解决左截断
问题 274
7.2.4估算一个任期的风险率 275
7.2.5估算所有任期的风险率 276
7.2.6在SQL中计算 277
7.3 时间窗 278
7.3.1一个商业问题 278
7.3.2时间窗=左截断 右截尾 278
7.4 竞争风险 283
7.4.1竞争风险的示例 283
7.4.2竞争风险的“风险率” 284
7.4.3竞争风险的“生存率” 286
7.4.4随着时间的变化,客户身上
发生了什么? 287
7.5 事件前后 291
7.5.1三种情况 291
7.5.2使用生存率预测来理解一次
性事件 293
7.5.3比较前后风险率 294
7.5.4基于对列的方法 294
7.5.5基于对列的方法:完全队列 295
7.5.6事件影响的直接估计 297
7.6 小结 301
第8章 多次购买以及其他重复事件303
8.1 标识客户 304
8.1.1谁是那个客户? 304
8.1.2其他客户信息 313
8.1.3每一年出现多少新客户? 316
8.2RFM分析 325
8.2.1维度 325
8.2.2计算RFM单元格 329
8.2.3RFM的有用程度 330
8.3 随着时间的变化,哪些家庭的
购买金额在增长? 334
8.3.1最早值和最晚值的比较 334
8.3.2第一年和最后一年的值的
比较 341
8.3.3最佳拟合线的趋势 343
8.4 距离下一次事件的时间344
8.4.1计算背后的想法 344
8.4.2使用SQL计算下一次购买
日期 345
8.4.3从下一次购买日期到时间至
事件的分析 346
8.4.4时间到事件分析的分层 347
8.5 小结 347
第9章 购物车里有什么?购物车
分析 349
9.1 探索产品 349
9.1.1产品的散点图 350
9.1.2产品组的运输年份 351
9.1.3订单中的重复产品 353
9.1.4单位数量的直方图 358
9.1.5在一个订单中,哪个产品可能
出现多次购买的情况? 359
9.1.6改变价格 361
9.2 产品和客户价值 362
9.2.1订单大小的一致性 362
9.2.2与一次性客户关联的产品 365
9.2.3与最好的客户相关的产品 368
9.2.4剩余价值 370
9.3 产品的地理分布 372
9.3.1每一个州中最常见的产品 372
9.3.2哪些产品广受欢迎,哪些产品
只在本地受欢迎? 373
9.4 哪些客户购买了指定产品?375
9.4.1哪些客户拥有最受欢迎的
产品? 375
9.4.2客户拥有哪个产品? 376
9.4.3哪些客户有3个特定的
产品? 381
9.4.4普遍的嵌套集合的查询 384
9.5 小结 385
第10章 关联规则 387
10.1项集 388
10.1.1两个产品的组合 388
10.1.2更常见的项集 391
10.1.3家庭,而不是订单 396
10.2最简单的关联规则 399
10.2.1关联和规则 400
10.2.2零项关联规则 400
10.2.3概率的分布情况 401
10.2.4零项关联告诉了我们
什么? 402
10.3单项关联规则 402
10.3.1单项关联规则的价值 402
10.3.2生成所有的单项规则 404
10.3.3包含评估信息的单项
规则 405
10.3.4基于产品组的单项规则 406
10.4双项关联 407
10.4.1计算双项关联 408
10.4.2使用卡方找到最佳规则 409
10.4.3异质相关 413
10.5扩展关联规则 416
10.5.1多项关联 416
10.5.2一个查询中的多项关联 418
10.5.3使用产品属性的规则 418
10.5.4左右两侧项集内容不同
的规则 419
10.5.5之前和之后:有序关联
规则 419
10.6小结 422
第11章 SQL数据挖掘模型 423
11.1定向数据挖掘介绍 424
11.1.1定向模型 424
11.1.2建模中的数据 425
11.1.3建模应用示例 427
11.1.4模型评估 429
11.2相似性模型 429
11.2.1模型是什么? 430
11.2.2最好的邮政编码是
哪个? 430
11.2.3基础的相似性模型 431
11.2.4使用Z分数计算相似性
模型 433
11.2.5邻近模型示例 434
11.3最受欢迎产品的查找模型 435
11.3.1最受欢迎的产品 435
11.3.2计算最受欢迎的产品组 436
11.3.3评估查找模型 437
11.3.4使用调试查找模型做
预测 437
11.3.5使用二元分类 439
11.4用于订单大小的查找模型 440
11.4.1最基本的模型:无维度
模型 440
11.4.2添加一个维度 441
11.4.3添加额外的维度 443
11.4.4检查不稳定性 443
11.4.5使用平均值图表评估
模型 444
11.5用于响应率的查找模型 445
11.5.1将整体概率作为一个
模型 445
11.5.2探索不同的维度 446
11.5.3模型的精准度 447
11.5.4ROC图表和AUC 450
11.5.5加入更多的维度 453
11.6朴素贝叶斯模型(证据模型) 455
11.6.1概率的一些概念 455
11.6.2计算朴素贝叶斯模型 457
11.6.3朴素贝叶斯模型:评分和
提升度 463
11.6.4朴素贝叶斯模型和查找
模型的比较 465
11.7小结 466
第12章 最佳拟合线:线性回归
模型 467
12.1最佳拟合线 468
12.1.1任期和支付金额 468
12.1.2最佳拟合线的属性 469
12.1.3小心数据 473
12.1.4图表中的趋势线 474
12.1.5使用LINEST()函数的
最佳拟合 479
12.2使用R2衡量拟合程度 483
12.2.1R2值 483
12.2.2R2的局限性 484
12.2.3R2的含义 484
12.3直接计算最佳拟合线系数 485
12.3.1计算系数 485
12.3.2在SQL中计算最佳
拟合线 486
12.3.3价格弹性 487
12.4加权的线性回归 492
12.4.1在第一年停止的客户 492
12.4.2加权的最佳拟合 493
12.4.3图表中的加权最佳
拟合线 494
12.4.4SQL中的加权最佳
拟合线 495
12.4.5使用Solver的加权最佳
拟合线 496
12.5多个输入 498
12.5.1Excel中的多维回归 498
12.5.2建立包含三个变量的
模型 500
12.5.3使用Solver处理多维
回归 501
12.5.4逐个选择输入变量 501
12.5.5SQL中的多维回归 502
12.6小结 503
第13章 为进一步分析数据创建客户
签名 505
13.1什么是客户签名? 506
13.1.1什么是客户? 506
13.1.2客户签名的源数据 507
13.1.3使用客户签名 510
13.2设计客户签名 511
13.2.1调试和预测 511
13.2.2字段的角色 511
13.2.3时间段 512
13.3建立客户签名的操作 515
13.3.1驱动表 515
13.3.2查找数据 518
13.3.3最初的交易 520
13.3.4旋转 521
13.3.5总结 528
13.4抽取特征 530
13.4.1地理位置信息 530
13.4.2日期时间列 531
13.4.3字符串中的模式 532
13.5总结客户行为 534
13.5.1计算时间序列的斜率 534
13.5.2周末消费者 537
13.5.3下降的使用行为 540
13.6小结 541
第14章 性能问题:高效使用SQL543
14.1查询引擎和性能 544
14.1.1用于理解性能的时间
复杂度 544
14.1.2一个简单的示例 545
14.1.3与性能相关的思考 547
14.1.4性能的含义和测量 549
14.1.5性能提升入门 549
14.2高效使用索引 553
14.2.1什么是索引? 553
14.2.2索引的简单示例 557
14.2.3索引的限制 560
14.2.4高效使用复合索引 562
14.3何时使用OR是低效的? 566
14.3.1有时UNION ALL比OR
更好 566
14.3.2有时LEFT OUTER JOIN比
OR更高效 567
14.3.3有时多个条件表达式
更好 568
14.4赞成和反对:表达一件事情的
不同方法 569
14.4.1在Orders表中,哪些州
没有被识别? 569
14.4.2一个关于GROUP BY的
难题 571
14.4.3小心COUNT(*)=0 573
14.5窗口函数 576
14.5.1窗口函数适用于什么
地方? 576
14.5.2窗口函数的灵活使用 576
14.6小结 582
附录 数据库之间的等价结构583
- 名称
- 类型
- 大小
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问