Hadoop: the definitive guide

副标题:无

作   者:(美)Tom White著;周敏奇[等]译

分类号:

ISBN:9787302257585

微信扫一扫,移动浏览光盘

简介

  《hadoop权威指南(第2版)》从hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍hadoop这一高性能处理海量数据集的理想工具。全书共16章,3个附录,涉及的主题包括:haddoop简介;mapreduce简介;hadoop分布式文件系统;hadoop的i/o、mapreduce应用程序开发;mapreduce的工作机制;mapreduce的类型和格式;mapreduce的特性;如何构建hadoop集群,如何管理hadoop;pig简介;hbase简介;hive简介;zookeeper简介;开源工具sqoop,最后还提供了丰富的案例分析。    《hadoop权威指南(第2版)》是hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行hadoop集群。    google帝国的基石是什么?mapreduce算法!开源项目hadoop作为它的一个具体实现,可以轻松用于构建和维护一个可靠性高、伸缩性强的分布式系统。    作者tomwhite作为hadoop的项目负责人,通过自己对hadoop和hadoop社区的理解,化繁为简,用浅显易懂的语言介绍了hadoop能做什么,怎么做才能充分发挥hadoop的优势,hadoop能够和哪些开源工具结合使用。这是一本主题丰富、讲解透彻的权威参考书,可帮助程序员了解分析海量数据集的细枝末节,帮助管理员掌握搭建和运行hadoop集群的具体过程。    经过修订和更新的第2版概述了hadoop的最新动态,例如hive、sqoop和avro等。书中还提供了案例分析来帮助读者了解如何用hadoop来解决具体的问题。如果想充分利用数据,从中挖掘出有价值的见解或者观点,毫无疑问,这本书将是您不可或缺的重要参考。    使用hadoop分布式文件系统(hdfs)来存储大型数据集,然后用mapreduce对这些数据集执行分布式计算    hadoop的数据和i/o构建块(用子压缩、数据完整性、序列化和持久处理)    探究mapreducc应用开发中常见的陷阱和高级特性    设计,构建和管理门adoop专用集群或在云上运行hadoop    使用pig这种高级的查询语言来进行大规模数据处理    使用hive(hadoop的数据仓库系统)来分析数据集    使用hbase(hadoop的数据库)来处理结构化数据和半结构化数据    深入介绍zookeeper,一个用子构建分布式系统的协作类型工具箱

目录

《hadoop权威指南(第2版)》

第1章 初识hadoop 1

数据!数据! 1

数据存储与分析 3

与其他系统相比 4

关系型数据库管理系统 4

网格计算 6

志愿计算 8

hadoop 发展简史 9

apache hadoop和hadoop生态圈 12

第2章 关于mapreduce 15

一个气象数据集 15

数据的格式 15

使用unix工具进行数据分析 17

使用hadoop分析数据 18

map阶段和reduce阶段 18

横向扩展 27

合并函数 30

运行一个分布式的mapreduce作业 33

hadoop的streaming 33

.ruby版本 33

python版本 36

hadoop pipes 37

编译运行 38

第3章 hadoop分布式文件系统 41

hdfs的设计 41

hdfs的概念 43

数据块 43

namenode和datanode 44

命令行接口 45

基本文件系统操作 46

hadoop文件系统 47

接口 49

java接口 51

从hadoop url中读取数据 51

通过filesystem api读取数据 52

写入数据 55

目录 57

查询文件系统 57

删除数据 62

数据流 62

文件读取剖析 62

文件写入剖析 65

一致模型 68

通过 distcp并行拷贝 70

保持 hdfs 集群的均衡 71

hadoop的归档文件 71

使用hadoop归档文件 72

不足 73

第4章 hadoop i/o 75

数据完整性 75

hdfs的数据完整性 75

localfilesystem 76

checksumfilesystem 77

压缩 77

codec 78

压缩和输入切分 83

在mapreduce中使用压缩 84

序列化 86

writable接口 87

writable类 89

实现定制的writable类型 96

序列化框架 101

avro 103

依据文件的数据结构 116

写入sequencefile 117

mapfile 123

第5章 mapreduce应用开发 129

配置api 130

合并多个源文件 131

可变的扩展 132

配置开发环境 132

配置管理 132

辅助类genericoptionsparser,tool和toolrunner 135

编写单元测试 138

mapper 138

reducer 140

本地运行测试数据 141

在本地作业运行器上运行作业 141

测试驱动程序 145

在集群上运行 146

打包 146

启动作业 146

mapreduce的web界面 148

获取结果 151

作业调试 153

使用远程调试器 158

作业调优 160

分析任务 160

mapreduce的工作流 163

将问题分解成mapreduce作业 163

运行独立的作业 165

第6章 mapreduce的工作机制 167

剖析mapreduce作业运行机制 167

作业的提交 167

作业的初始化 169

任务的分配 169

任务的执行 170

进度和状态的更新 170

作业的完成 172

失败 173

任务失败 173

tasktracker失败 175

jobtracker失败 175

作业的调度 175

fair scheduler 176

capacity scheduler 177

shuffle和排序 177

map端 177

reduce端 179

配置的调优 180

任务的执行 183

推测式执行 183

重用jvm 184

跳过坏记录 185

任务执行环境 186

第7章 mapreduce的类型与格式 189

mapreduce的类型 189

默认的mapreduce作业 192

输入格式 198

输入分片与记录 198

文本输入 209

二进制输入 213

多种输入 214

数据库输入(和输出) 215

输出格式 215

文本输出 216

二进制输出 216

多个输出 217

延迟输出 224

数据库输出 224

第8章 mapreduce的特性 225

计数器 225

内置计数器 225

用户定义的java计数器 227

用户定义的streaming计数器 232

排序 232

准备 232

部分排序 233

总排序 237

二次排序 241

联接 247

map端联接 247

reduce端联接 249

边数据分布 252

利用jobconf来配置作业 252

分布式缓存 253

mapreduce库类 257

第9章 构建hadoop集群 259

集群规范 259

网络拓扑 261

集群的构建和安装 263

安装java 264

创建hadoop用户 264

安装hadoop 264

测试安装 265

ssh配置 265

hadoop配置 266

配置管理 267

环境设置 269

hadoop守护进程的关键属性 273

hadoop守护进程的地址和端口 278

hadoop的其他属性 279

创建用户帐号 280

安全性 281

kerberos和hadoop 282

委托令牌 284

其他安全性改进 285

利用基准测试程序测试hadoop集群 286

hadoop基准测试程序 287

用户的作业 289

云上的hadoop 289

amazon ec2上的hadoop 290

第10章 管理hadoop 293

hdfs 293

永久性数据结构 293

安全模式 298

日志审计 300

工具 300

监控 305

日志 305

度量 306

java管理扩展(jmx) 309

维护 312

日常管理过程 312

委任节点和解除节点 313

升级 316

第11章 pig简介 321

安装与运行pig 322

执行类型 322

运行pig程序 324

grunt 324

pig latin编辑器 325

示例 325

生成示例 327

与数据库比较 328

piglatin 330

结构 330

语句 331

表达式 335

类型 336

模式 338

函数 342

用户自定义函数 343

过滤udf 343

计算udf 347

加载udf 348

数据处理操作 351

加载和存储数据 351

过滤数据 352

分组与连接数据 354

对数据进行排序 359

组合和分割数据 360

pig实战 361

并行处理 361

参数代换 362

第12章 hive 365

安装hive 366

hive外壳环境 367

示例 368

运行hive 369

配置hive 369

hive服务 371

metastore 373

和传统数据库进行比较 375

读时模式(schema on read)vs.写时模式(schema on write) 376

更新、事务和索引 376

hiveql 377

数据类型 378

操作和函数 380

表 381

托管表(managed tables)和外部表(external tables) 381

分区(partitions)和桶(buckets) 383

存储格式 387

导入数据 392

表的修改 394

表的丢弃 395

查询数据 395

排序(sorting)和聚集(aggregating) 395

imapreduce脚本 396

连接 397

子查询 400

视图(view) 401

用户定义函数(user-defined functions) 402

编写udf 403

编写udaf 405

第13章 hbase 411

hbasics 411

背景 412

概念 412

数据模型的“旋风之旅” 412

实现 413

安装 416

测试驱动 417

客户机 419

java 419

avro,rest,以及thrift 422

示例 423

模式 424

加载数据 425

web查询 428

hbase和rdbms的比较 431

成功的服务 432

hbase 433

实例:hbase在streamy.com的使用 433

praxis 435

版本 435

hdfs 436

用户接口(ui) 437

度量(metrics) 437

模式设计 438

计数器 438

批量加载(bulkloading) 439

第14章 zookeeper 441

安装和运行zookeeper 442

示例 443

zookeeper中的组成员关系 444

创建组 444

加入组 447

列出组成员 448

zookeeper服务 451

数据模型 451

操作 453

实现 457

一致性 458

会话 460

状态 462

使用zookeeper来构建应用 463

配置服务 463

具有可恢复性的zookeeper应用 466

锁服务 470

生产环境中的zookeeper 473

可恢复性和性能 473

配置 474

第15章 开源工具sqoop 477

获取sqoop 477

一个导入的例子 479

生成代码 482

其他序列化系统 482

深入了解数据库导入 483

导入控制 485

导入和一致性 485

直接模式导入 485

使用导入的数据 486

导入的数据与hive 487

导入大对象 489

执行导出 491

深入了解导出 493

导出与事务 494

导出和sequencefile 494

第16章 实例分析 497

hadoop 在last.fm的应用 497

last.fm:社会音乐史上的革命 497

hadoop a last.fm 497

用hadoop产生图表 498

track statistics程序 499

总结 506

hadoop和hive在facebook的应用 506

概要介绍 506

hadoop a facebook 506

假想的使用情况案例 509

hive 512

问题与未来工作计划 516

nutch 搜索引擎 517

背景介绍 517

数据结构 518

nutch系统利用hadoop进行数据处理的精选实例 521

总结 530

rackspace的日志处理 531

简史 532

选择hadoop 532

收集和存储 532

日志的mapreduce模型 533

关于cascading 539

字段、元组和管道 540

操作 542

tap类,scheme对象和flow对象 544

cascading实战 545

灵活性 548

hadoop和cascading在sharethis的应用 549

总结 552

在apache hadoop上的tb字节数量级排序 553

使用pig和wukong来探索10亿数量级边的 网络图 556

测量社区 558

每个人都在和我说话:twitter回复关系图 558

degree(度) 560

对称链接 561

社区提取 562

附录a 安装apache hadoop 565

附录b cloudera's distribution for hadoop 571

附录c 准备ncdc天气数据 573

索引


已确认勘误

次印刷

页码 勘误内容 提交人 修订印次

Hadoop: the definitive guide
    • 名称
    • 类型
    • 大小

    光盘服务联系方式: 020-38250260    客服QQ:4006604884

    意见反馈

    14:15

    关闭

    云图客服:

    尊敬的用户,您好!您有任何提议或者建议都可以在此提出来,我们会谦虚地接受任何意见。

    或者您是想咨询:

    用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问

    Video Player
    ×
    Audio Player
    ×
    pdf Player
    ×
    Current View

    看过该图书的还喜欢

    some pictures

    解忧杂货店

    东野圭吾 (作者), 李盈春 (译者)

    loading icon