搜索

关键词：邓立国 ×

共找到 8 项 “邓立国” 相关结果

出版社：清华大学出版社 2017年09月

简介：
本书系统地讲述数据库原理与SQL Server 2016的功能、应用及实践知识。全书共分13章，主要内容包括关系数据库知识、SQL Server 2016的安装与配置、数据库的创建与维护、数据库表的操作与管理、数据库表的维护、完整性控制、查询与管理表数据、Transact-SQL编程、存储过程和触发器、数据库安全管理、数据库系统开发配置连接，并且详细介绍了C#和SQL Server 2016系统开发及实训等知识。本书内容翔实、知识结构合理、语言流畅简洁、案例丰富，适合希望学习SQL Server 2016操作的初学者阅读，也适合作为高等学校计算机科学与技术、软件工程、信息技术等相关专业的数据库课程教材。

云计算环境下Spark大数据处理技术与实践

作者：邓立国

出版社：清华大学出版社 2017年09月

简介：
本书围绕互联网重大的技术革命：云计算、大数据进行阐述。云计算环境下大数据处理构建是国民经济发展的信息基础设施，发展自主的云计算核心技术，拥有自己的信息基础设施，当前正处于重要的机遇期。本书重点在大数据与云计算的融合，给出了大数据与云计算的一些基本概念，并以Spark为开发工具，全面讲述云环境下的Spark大数据技术部署与典型案例算法实现，*后介绍了国内经典Spark大数据与云计算融合的架构与算法。本书适合云计算环境下Spark大数据技术人员、Spark MLlib机器学习技术人员，也适合高等院校和培训机构相关专业的师生教学参考。
【目录】

第1章大数据处理概述 1

1.1 大数据处理技术概述 1

1.1.1什么是大数据 1

1.1.2大数据来源 2

1.1.3大数据应用价值 3

1.1.4大数据技术特点和研究内容 4

1.1.5大数据计算与系统 5

1.2 数据挖掘及其相关领域应用9

1.2.1数据挖掘概述 9

1.2.2数据挖掘与机器学习 11

1.2.3数据挖掘与数据库 11

1.2.4数据挖掘与统计学 12

1.2.5数据挖掘与决策支持 12

1.2.6数据挖掘与云计算 13

1.3 大数据应用 13

1.3.1大数据应用案例 13

1.3.2大数据应用场景 14

1.3.3大数据应用平台方案案例 21

1.4 并行计算简介 23

1.5Hadoop介绍 24

1.6 本章小结 26

第2章云计算时代 27

2.1 云计算概述 27

2.1.1云计算概念 27

2.1.2云计算发展简史 28

2.1.3云计算实现机制 30

2.1.4云计算服务形式 31

2.1.5云计算时代的数据库NoSQL 32

2.2 云计算发展动力源泉 34

2.3 云计算技术分析 34

2.3.1编程模式 34

2.3.2海量数据云存储技术 37

2.3.3海量数据管理技术 38

2.3.4虚拟化技术 39

2.3.5分布式计算 41

2.3.6云监测技术 41

2.4 并行计算与云计算关系 43

2.4.1并行计算与云计算 44

2.4.2MapReduce 45

2.5 云计算发展优势 51

2.6 向云实现迁移 53

2.7 本章小结 55

第3章大数据与云计算关系 56

3.1 云计算与大数据关系 56

3.2 大数据与云计算的融合是认识世界的新工具 57

3.3 大数据隐私保护是大数据云快速发展和运用的重要前提 59

3.3.1云计算的安全隐私 60

3.3.2大数据的安全隐私 60

3.4 大数据成就云计算价值 62

3.5 数据向云计算迁移 63

3.6 大数据清洗 64

3.7 云计算时代的数据集成技术66

3.8 云推荐 67

3.9 本章小结 68

第4章 Spark大数据处理基础 69

4.1Spark大数据处理技术 69

4.1.1Spark系统概述 69

4.1.2Spark生态系统BDAS（伯利克分析栈） 70

4.1.3Spark的用武之地 71

4.1.4Spark大数据处理框架 72

4.1.5Spark运行模式分类及术语 73

4.2Spark 2.0.0安装配置 74

4.2.1在Linux集群上安装与配置Spark 74

4.2.2Spark Shell 81

4.2.3Spark RDD 88

4.2.4Shark（Hive on Spark大型的数据仓库系统） 91

4.3Spark配置 92

4.3.1环境变量 92

4.3.2系统属性 93

4.3.3配置日志 95

4.3.4Spark 硬件配置 95

4.4Spark模式部署概述 96

4.5Spark Streaming实时计算框架 98

4.6Spark SQL 查询、DataFrames分布式数据集和Datasets API 101

4.7Spark起始点 102

4.7.1SparkSession 102

4.7.2SQLContext 103

4.7.3创建DataFrame 104

4.7.4无类型的Dataset操作（aka DataFrame Operations） 105

4.7.5编程执行SQL查询语句 111

4.7.6创建Dataset 112

4.7.7和RDD互操作 115

4.8Spark数据源 125

4.8.1通用加载/保存函数 125

4.8.2Parquet文件 127

4.8.3JSON数据集 135

4.8.4Hive表 136

4.8.5用JDBC连接其他数据库 143

4.9Spark性能调优 144

4.10分布式SQL引擎 145

4.11本章小结 146

第5章 Spark MLlib机器学习算法实现 147

5.1Spark MLlib基础 147

5.1.1机器学习 148

5.1.2机器学习分类 148

5.1.3机器学习常见算法 149

5.1.4Spark MLlib机器学习库 152

5.1.5基于Spark常用的算法举例分析 156

5.2Spark MLlib矩阵向量 159

5.2.1Breeze创建函数 159

5.2.2Breeze元素访问 161

5.2.3Breeze元素操作 162

5.2.4Breeze数值计算函数 165

5.2.5Breeze求和函数 166

5.2.6Breeze布尔函数 167

5.2.7Breeze线性代数函数 168

5.2.8Breeze取整函数 169

5.2.9Breeze三角函数 170

5.2.10BLAS向量运算 170

5.3Spark MLlib线性回归算法 171

5.3.1线性回归算法理论基础 171

5.3.2线性回归算法 172

5.3.3Spark MLlib Linear Regression源码分析 174

5.4Spark MLlib逻辑回归算法 183

5.4.1逻辑回归算法 184

5.4.2Spark MLlib Logistic Regression源码分析 186

5.5Spark MLlib朴素贝叶斯分类算法 199

5.5.1朴素贝叶斯分类算法 200

5.5.2朴素贝叶斯Spark MLlib源码 203

5.6Spark MLlib决策树算法 217

5.6.1决策树算法 217

5.6.2决策树实例 220

5.7Spark MLlib KMeans聚类算法 227

5.7.1KMeans聚类算法 227

5.7.2Spark MLlib KMeans源码分析 228

5.7.3MLlib KMeans实例 235

5.8Spark MLlib FPGrowth关联规则算法 236

5.8.1基本概念 236

5.8.2FPGrowth算法 237

5.8.3Spark MLlib FPGrowth源码分析 241

5.9Spark MLlib协同过滤推荐算法 244

5.9.1协同过滤概念 244

5.9.2相似度度量 245

5.9.3协同过滤算法按照数据使用分类 246

5.9.4Spark MLlib协同过滤算法实现 247

5.9.5Spark MLlib电影评级推荐 252

5.10Spark MLlib神经网络算法 261

5.11本章小结 264

第6章 Spark大数据架构系统部署 265

6.1 大数据架构介绍 265

6.2 典型的商务使用场景 266

6.2.1客户行为分析 266

6.2.2情绪分析 267

6.2.3CRM Onboarding 267

6.2.4预测 268

6.3Spark三种分布式部署模式 268

6.3.1Standalone模式 268

6.3.2Spark On Mesos 模式 269

6.3.3Spark On YARN模式 269

6.4 创建大数据架构 270

6.4.1数据采集 270

6.4.2数据接入 271

6.4.3Spark流式计算 273

6.4.4数据输出 274

6.4.5日志摄取 274

6.4.6机器学习 277

6.4.7处理引擎 277

6.5Spark单个机器集群部署 278

6.6 本章小结 280

第7章 Spark大数据处理案例分析 282

7.1Spark on Amazon EMR 282

7.1.1Amazon EMR 282

7.1.2配置 Spark 283

7.1.3以交互方式或批处理模式使用 Spark 284

7.1.4使用 Spark 创建集群 285

7.1.5访问 Spark 外壳 286

7.1.6添加 Spark 287

7.2Spark在AWSKrux的应用 289

7.3Spark在商业网站中的应用 290

7.4Spark在Yahoo!的应用 291

7.5Spark在Amazon EC2上运行 292

7.6 淘宝应用Spark onYARN架构 296

7.7 腾讯云大数据解决方案297

7.8 雅虎开源TensorFlowOnSpark298

7.9 阿里云E-MapReduce301

7.10SequoiaDB Spark 打造一体化大数据平台 304

7.11本章小结 305

第8章大数据发展展望 306

8.1 大数据未来发展趋势 306

8.2 大数据给人类带来的认知冲击307

8.3 未来大数据研究突破的技术问题 308

8.4 本章小结 309

附录 Spark MLlib神经网络算法 312

参考文献 338

【免费在线读】
第 1 章? 大数据处理概述 ?
大数据是当今一个*热门的话题，我们每一个人都无法置身其外。就像几年前出现的云计算一样，大数据已经引起市场的广泛关注；同样，企业迫切需要对大数据下定义。大数据缺少一个标准且普及性的定义，至少不像NIST 对云的定义那样，能被人们广泛接受。调研公司IDC的定义可能比较容易被人们所接受。它对大数据的定义是：一种新一代的技术和架构，具备高效率的捕捉、发现和分析能力，能够经济地从类型繁杂、数量庞大的数据中挖掘出价值。1.1 大数据处理技术概述近几年，大数据迅速发展成为科技界和企业界甚至世界各国政府关注的热点。《Nature》和《Science》等相继出版专刊专门探讨大数据带来的机遇和挑战。著名管理咨询公司麦肯锡称：“数据已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于大数据的挖掘和运用，预示着新一波生产力增长和消费盈余浪潮的到来”。美国政府认为大数据是“未来的新石油，一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分，对数据的占有和控制将成为国家间和企业间新的争夺焦点。大数据已成为社会各界关注的新焦点，“大数据时代”已然来临[1]。“大数据”是一个体量特别大、数据类别特别大的数据集，并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。百度知道大数据（bigdata）的定义，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理，并整理成为帮助企业经营决策更积极目的的资讯。大数据的5V特点：Volume、Velocity、Variety、Veracity、Value。1.1.1 什么是大数据“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看，“大数据”指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务（AWS）大数据科学家JohnRauser提到一个简单的定义：大数据就是任何超过了一台计算机处理能力的庞大数据量。其研发小组对大数据的定义：“大数据是*的、*时髦的技术，当这种现象出现时，定义就变得很混乱。”学者Kelly说：“大数据是可能不包含所有的信息，但我觉得大部分是正确的。对大数据的一部分认知在于，它是如此之大，分析它需要多个工作负载，这是AWS的定义。当你的技术达到极限时，也就是数据的极限”。大数据不是关于如何定义，*重要的是如何使用。*的挑战在于哪些技术能更好地使用数据以及大数据的应用情况如何。这与传统的数据库相比，开源的大数据分析工具如Hadoop的崛起，这些非结构化的数据服务的价值在哪里。相较于传统的数据，人们将大数据的特征总结为5个V，即体量大（Volume）、速度快（Velocity）、模态多（Variety）、难辨识（Veracity）和价值大（Value）。“大数据”首先是指数据体量(volumes)大，指代大型数据集，一般在10TB规模左右，但在实际应用中，很多企业用户把多个数据集放在一起，已经形成了PB级的数据量；其次是指数据类别（Variety）多，数据来自多种数据源，数据种类和格式日渐丰富，已冲破了以前所限定的结构化数据范畴，囊括了半结构化和非结构化数据；接着是数据处理速度（Velocity）快，在数据量非常庞大的情况下，也能够做到数据的实时处理；还有一个特点是指数据真实性（Veracity）高，随着社交数据、企业内容、交易与应用数据等新数据源的兴趣，传统数据源的局限被打破，企业愈发需要有效的信息之力以确保其真实性及安全性。但大数据的主要难点并不在于数据量大，因为通过对计算机系统的扩展可以在一定程度上缓解数据量大带来的挑战。其实，大数据真正难以对付的挑战来自于数据类型多样（Variety）、要求及时响应（Velocity）和数据的不确定性（Veracity）。因为数据类型多样使得一个应用往往既要处理结构化数据，同时还要处理文本、视频、语音等非结构化数据，这对现有数据库系统来说难以应付；在快速响应方面，在许多应用中时间就是利益；在不确定性方面，数据真伪难辨是大数据应用的*挑战。追求高数据质量是对大数据的一项重要要求，*好的数据清理方法也难以消除某些数据固有的不可预测性。

Python机器学习算法与应用

作者：邓立国

出版社：清华大学出版社 2020年05月

简介：

Python大数据分析算法与实例

作者：邓立国

出版社：清华大学出版社 2020年05月

简介：

Python机器学习算法与应用

作者：邓立国|责编:夏毓彦

出版社：清华大学 2020-05-01

简介：

Python数据分析与挖掘实战

作者：邓立国

出版社：清华大学出版社 2021-05-01

简介：本书涵盖数据分析与数据挖掘的基础知识、工具和有效实践方法，能让读者充分掌握数据分析与数据挖掘的基本技能。本书共分为15章，主要内容包括大数据获取、数据预处理、探索性数据分析、用Sklearn估计器分类、主流数据分析库、大数据的数据库类型、数据仓库/商业智能、数据聚合与分组运算、数据挖掘工具、挖掘建模、模型评估、社会媒体挖掘、图挖掘分类、基于深度学习的验证码识别、基于深度学习的文本分类挖掘实现。本书采用理论与实践相结合的方式，利用Python语言的强大功能，以*小的编程代价进行数据的提取、处理、分析和挖掘，既适合Python数据分析与数据挖掘初学者、大数据从业人员阅读，也适合高等院校和培训机构大数据与人工智能相关专业的师生教学参考。【目录】第1章大数据采集 11.1 大数据分类 11.2 大数据采集方法 21.3 Python爬虫 31.3.1 审查元素 41.3.2 认识网页结构 51.3.3 认识robots.txt的文档 61.3.4 爬虫的基本原理 111.3.5 Python爬虫架构 111.3.6 用GET方式抓取数据 121.3.7 用POST方式抓取数据 151.3.8 用Beautiful Soup解析网页 171.3.9 Python爬虫案例 191.4 本章小结 25第2章数据预处理 262.1 数据清洗 262.1.1 缺失值处理 272.1.2 异常值处理 282.2 数据集成 302.3 数据转换 322.4 数据规约 342.5 Python主要数据预处理函数 352.6 本章小结 37第3章探索性数据分析 383.1 异常值分析 383.2 缺失值分析 413.3 分布分析 433.4 相关性分析 463.5 对比分析 483.6 统计量分析 483.7 周期性分析 513.8 贡献度分析 513.9 Python主要数据探索函数 523.10 本章小结 53第4章 Sklearn估计器 544.1 Sklearn概述 544.2 使用Sklearn估计器分类 584.2.1 k近邻算法 594.2.2 管道机制 634.2.3 Sklearn比较分类器 654.3 本章小结 69第5章主流数据分析库 705.1 NumPy 705.2 Pandas 755.2.1 Pandas系列 765.2.2 Pandas数据帧 785.2.3 Pandas面板 845.3 SciPy 865.4 Matplotlib 905.5 本章小结 93第6章大数据：数据库类型 946.1 关系型数据库 946.2 关系型数据库与非关系型数据库的关系 956.3 SQLite 966.3.1 SQLite安装与配置 966.3.2 SQLite命令 976.3.3 SQLite语法 996.3.4 SQLite - Python 1046.4 MySQL 1116.4.1 MySQL安装 1116.4.2 MySQL管理 1146.4.3 MySQL PHP语法 1166.4.4 PHP脚本连接MySQL 1166.4.5 Python操作MySQL数据库 1176.5 NoSQL数据库 1236.5.1 NoSQL概述 1236.5.2 列存储数据库 1256.5.3 文档存储数据库 1346.5.4 键值存储数据库 1436.5.5 图存储数据库 1536.5.6 对象存储数据库 1556.5.7 XML数据库 1556.6 本章小结 157第7章数据仓库/商业智能 1587.1 数据仓库和商业智能简介 1587.2 数据仓库架构 1597.3 OLAP 1607.4 数据集市 1617.5 商业智能 1627.6 本章小结 163第8章数据聚合与分组运算 1648.1 GroupBy技术 1648.1.1 通过函数进行分组 1658.1.2 对分组进行迭代 1678.1.3 选取一个或一组列 1708.1.4 通过字典或Series进行分组 1718.1.5 通过函数进行分组 1728.1.6 根据索引级别分组 1738.2 数据聚合 1748.2.1 面向列的多函数应用 1748.2.2 以无索引的方式返回聚合数据 1778.2.3 分组级运算和转换 1788.3 透视表和交叉表 1818.4 本章小结 183第9章数据挖掘工具 1849.1 数据挖掘工具分类 1849.2 数据挖掘经典算法 1859.3 免费数据挖掘工具 1869.4 Git和GitHub项目数据挖掘工具 1889.5 Python数据挖掘工具 1909.5.1 Gensim 1909.5.2 TensorFlow 1949.5.3 Keras 1979.6 本章小结 197第10章挖掘建模 19810.1 数据挖掘建模的一般过程 19810.2 分类与预测 19910.3 聚类分析 20010.4 关联分析 20110.5 时序模式 20210.6 离群点检测 20310.7 本章小结 204第11章模型评估 20511.1 验证 20511.2 交叉验证 20611.3 自助法 20611.4 回归评估指标 20711.5 分类评估指标 20711.6 ROC曲线 20811.7 本章小结 210第12章社会媒体挖掘 21112.1 社会媒体与社会媒体数据 21112.2 中国社会媒体核心用户数据分析 21212.3 社会媒体挖掘技术与研究热点 21312.4 社会媒体挖掘流程 21412.5 Twitter情感分析 21612.6 本章小结 221第13章图挖掘分类 22213.1 图挖掘概述 22213.2 图挖掘技术基础 22413.3 网络度量 22613.4 网络模型 22913.5 图挖掘与知识推理 23013.6 图挖掘算法简介 23113.7 社区检测 23213.7.1 模块度 23313.7.2 社区发现算法 23413.8 频繁子图挖掘算法gSpan的实现 23713.9 基于networkx进行社交网络分析 23913.10 本章小结 245第14章基于深度学习的验证码识别 24614.1 获取图片验证码 24614.2 验证码图片预处理 24814.3 依赖TensorFlow的深度学习验证码识别 25514.4 本章小结 259第15章基于深度学习的文本分类挖掘实现 26015.1 文本分类概念 26015.2 文本分类挖掘算法概述 26115.3 基于传统机器学习的文本分类 26215.4 基于深度学习的文本分类 26315.4.1 FastText文本分类模型算法实现 26415.4.2 TextCNN文本分类模型算法实现 26815.4.3 Bert深度双向Transformer构建语言理解预训练模型 27115.4.4 TextRNN文本分类 27315.4.5 RCNN文本分类 27515.4.6 Hierarchical Attention Network文本分类 27815.4.7 seq2seq with attention文本分类 28115.4.8 Transformer文本分类 28315.4.9 Dynamic Memory Network文本分类 28915.4.10 Recurrent Entity Network文本分类 29215.4.11 Boosting文本分类 29415.4.12 BiLstmTextRelation文本分析 29415.4.13 twoCNNTextRelation文本分类 29715.5 本章小结 297参考文献 298

Python机器学习算法与应用

作者：邓立国|责编:夏毓彦

出版社：清华大学 2020-05-01

简介：

Python大数据分析算法与实例

作者：邓立国

出版社：清华大学出版社 2020-05-01

简介：大数据时代，大数据分析是关键技术。Python是一款优秀的大数据分析软件，本书以Python 3结合第三方开源工具进行大数据分析，以*小的代价编程实现数据的提取、处理、分析和可视化。本书分为8章，首先介绍大数据分析的背景和行业应用，给出了数据特征算法分析；然后基于Python 3介绍常用典型第三方大数据分析工具的场景应用；*后比较翔实地阐述大数据分析算法与经典实例应用。本书适合从事大数据分析的研究人员、计算机或数学等相关专业的从业者参考学习，也可以作为计算机或数学等专业本科高年级或研究生的专业用书。

热门推荐