简介
曾刚编的本书以“大数 据”为起点,较详细地介绍了Hadoop的相关知识。全 书共分为9章,介绍了大数据的基本理论、Hadoop生 态系统、Hadoop的安装、HDFS分布式文件系统、 MapReduce的原理及开发、HBase数据库、Hive数据 仓库、Sqoop数据转换工具,*后结合实际介绍了大 数据在智能交通和情报分析中的应用。本书力求用浅 显的语言、生动的案例、详细的操作步骤向广大读者 介绍Hadoop;力求深入浅出,把复杂的理论与实际案 例相结合,用平实的语言把深奥的原理简单化;力求 图文并茂,通过适当的图表把零乱的知识点有序地展 现在读者面前;力求紧跟时代步伐,尽量结合较新版 本的软件阐述大数据处理的相关知识。 本书适合作为Hadoop技术的初学者、工程技术人 员、大专院校研究生或高年级本科生的学习用书或参 考书。
目录
第1章 大数据概述1.1 大数据简介1.1.1 大数据的概念与特点1.1.2 大数据研究的背景1.1.3 大数据的应用示例1.1.4 大数据研究的意义1.2 大数据处理技术简介1.2.1 大数据的关键技术1.2.2 大数据处理模式及其系统1.3 大数据带来的挑战1.4 大数据的研究与发展方向第2章 Hadoop简介2.1 Hadoop项目起源2.2 Hadoop的由来2.3 Hadoop核心组件及相关项目简介2.4 Hadoop的版本衍化2.5 Hadoop的发展趋势第3章 Hadoop的安装3.1 安装Ubuntu Server3.1.1 VMware网络适配器的连接模式3.1.2 “仅主机模式”网络的设置3.1.3 安装Ubuntu Server3.1.4 远程管理Ubuntu Server3.1.5 安装JDK3.1.6 克隆其他虚拟机3.1.7 配置hosts文件3.2 配置SSH公钥认证3.2.1 为什么要公钥认证3.2.2 公钥认证的工作原理3.2.3 SSH客户端的安装3.2.4 SSH配置3.2.5 配置SecureCRT公钥登录Linux服务器3.3 安装配置Hadoop3.3.1 单机安装3.3.2 伪分布模式的安装3.3.3 分布式安装3.3.4 Hadoop管理员常用命令3.4 双NameNode分布式安装Hadoop 2.2.03.4.1 安装配置Zookeeper集群3.4.2 安装Hadoop 2.2.0第4章 HDFS文件系统4.1 互联网时代对存储系统的新要求4.2 HDFS系统的特点4.3 HDFS文件系统4.3.1 HDFS系统组成4.3.2 HDFS文件数据的存储组织4.3.3 元数据及其备份机制4.3.4 数据块备份4.3.5 数据的读取过程4.3.6 数据的写入过程4.4 HDFS Shell命令4.5 API访问4.5.1 编译Hadoop的Eclipse插件4.5.2 在Eclipse中安装Hadoop插件4.5.3 Hadoop URL读取数据4.5.4 FileSystem类4.5.5 取得HDFS的元信息4.6 HDFS的高可用性4.6.1 元数据的备份4.6.2 使用SecondaryName进行备份4.6.3 BackupNode备份4.6.4 Hadoop 2.X中HDFS的高可用性实现原理4.6.5 Federation机制4.7 HDFS中小文件存储问题4.7.1 文件归档技术4.7.2 SequenceFile格式4.7.3 CombineFileInputFormat第5章 MapReduce原理及开发5.1 初识MapReduce5.1.1 试用WordCount5.1.2 自己编写WordCount5.1.3 WordCount处理过程5.2 MapReduce工作原理5.2.1 MapReduce数据处理过程5.2.2 MapReduce框架组成5.2.3 MapReduce运行原理5.3 Shuffle和Sort5.3.1 Map端的Shuffle5.3.2 Reduce端Shuffle5.3.3 Shuffle过程优化5.4 任务的执行5.4.1 推测执行5.4.2 任务JVM重用5.4.3 跳过坏的记录5.4.4 任务执行的信息5.5 故障处理5.5.1 任务失败5.5.2 TaskTracker失败5.5.3 JobTracker失败5.5.4 任务失败重试的处理方法5.6 作业调度5.6.1 先进先出(FIFO)调度器5.6.2 能力调度器5.6.3 公平调度器5.7 MapReduce编程接口5.7.1 InputFormat——输入格式类5.7.2 FileInputFormat——文件输入格式类5.7.3 InputSplit——数据分块类5.7.4 RecordReader——记录读取类5.7.5 Mapper类5.7.6 Reducer类5.7.7 OutputFormat——输出格式类5.7.8 FileOutputFormat类——文件输出格式类5.7.9 RecordWriter类——记录输出类5.8 MapReduce应用开发5.8.1 计数类应用5.8.2 去重计数类应用5.8.3 简单排序类应用5.8.4 倒排索引类应用5.8.5 二次排序类应用第6章 HBase数据库6.1 HBase介绍6.1.1 互联网时代对数据库的要求6.1.2 HBase的特点6.2 HBase架构与原理6.2.1 系统的架构及组成6.2.2 HBase逻辑视图6.2.3 HBase的物理模型6.2.4 元数据表6.3 安装HBase6.3.1 单机模式安装6.3.2 伪分布模式安装6.3.3 分布式安装6.4 HBase Shell操作6.4.1 基本Shell命令6.4.2 DDL操作6.4.3 DML操作6.4.4 HBase Shell脚本6.5 基于API使用HBase6.5.1 API简介6.5.2 表操作示例6.5.3 数据操作示例6.5.4 Filter的应用与示例6.6 MapReduce操作HBase数据6.6.1 HBase MapReduce汇总到文件6.6.2 HBase MapReduce汇总到HBase6.7 HBase优化6.7.1 JVM GC优化6.7.2 HBase参数调优6.7.3 表设计优化6.7.4 读优化6.7.5 写优化第7章 Hive数据仓库7.1 Hive简介7.1.1 数据分析工具应具有的特征7.1.2 Pig与Hive的比较7.1.3 Hive架构7.1.4 Hive的元数据存储7.1.5 Hive文件存储格式7.1.6 Hive支持的数据类型7.2 Hive的安装7.2.1 安装MySQL7.2.2 安装Hive7.2.3 Hive的用户接口7.3 Hive QL讲解7.3.1 DDL命令7.3.2 DML操作7.3.3 SELECT查询7.4 Hive复杂类型7.4.1 Array(数组)7.4.2 Map类型7.4.3 Struct类型7.5 Hive函数7.5.1 Hive内置函数7.5.2 Hive用户自定义函数第8章 数据整合8.1 大数据整合问题8.2 Sqoop 1.4X整合工具8.3 Sqoop2整合工具第9章 典型应用案例介绍9.1 大数据在智能交通中的应用9.1.1 交通运输业面临的挑战9.1.2 智能交通大数据平台的架构9.1.3 数据分析层的数据基础分析9.2 大数据在情报分析中的应用9.2.1 公安情报分析的现状9.2.2 大数据情报分析系统架构9.2.3 数据的整合9.2.4 情报分析的方法9.2.5 基于文本的串并案件聚类分析参考文献
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问
Video Player
×
Audio Player
×
pdf Player
×