大数据猩球:海量数据处理实践指南

副标题:无

作   者:(美)Philip Kromer(菲利普·克罗默),Russell Jurney(拉塞尔·贾米) 著,唐李洋 译

分类号:

ISBN:9787121294181

微信扫一扫,移动浏览光盘

简介

本书以实用的、可操作的视角解释了大数据——采用黑猩猩和大象的隐喻,基于棒球统计数据集,使用Apache Hadoop和Pig等工具展示了如何处理大规模数据。此外,通过处理真实数据、解决现实问题,作者还以实例的形式总结了一些实践分析模式,为有创造力的分析人员提供了最强大、最有价值的方法。本书特别适合那些需要大数据工具箱来解决实际问题的人们。

目录

前言 ..................................................................................................XI
第一部分 入门 :理论和工具
第 1 章 Hadoop 基础 ........................................................................3
黑猩猩和大象创业 .................................................................................................................4
Map-Only 作业 :逐个处理记录 ...........................................................................................5
Pig Latin Map-Only 作业........................................................................................................6
创建 Docker Hadoop 集群 ......................................................................................................8
运行作业 .......................................................................................................................12
小结 .......................................................................................................................................15
第 2 章 MapReduce........................................................................17
黑猩猩和大象拯救圣诞节 ...................................................................................................17
玩具岛上的麻烦 ...........................................................................................................17
黑猩猩把信件变成带标签的玩具表 ...........................................................................19
小象将玩具表送到适当的工作台 .......................................................................................21
示例 :驯鹿游戏 ...................................................................................................................23
UFO 数据 ......................................................................................................................24
根据报道延迟对 UFO 目击分组 .................................................................................24
Mapper ..........................................................................................................................24
Reducer .........................................................................................................................26
数据可视化 ...................................................................................................................29
驯鹿小结 .......................................................................................................................30
Hadoop 与传统数据库 .........................................................................................................30
MapReduce 俳句 ...................................................................................................................31
Map 阶段简述 ..............................................................................................................32
Group-Sort 阶段简述 ...................................................................................................32
Reduce 阶段简述 ..........................................................................................................32
小结 .......................................................................................................................................33
第 3 章 棒球数据集速览 ..................................................................35
数据 .......................................................................................................................................35
缩略词和术语 .......................................................................................................................36
规则和目标 ...........................................................................................................................37
评价指标 ...............................................................................................................................37
小结 .......................................................................................................................................38
第 4 章 Pig 入门 ..............................................................................39
Pig 帮助 Hadoop 处理数据表,而不是记录 ......................................................................39
维基百科访问数统计 ....................

已确认勘误

次印刷

页码 勘误内容 提交人 修订印次

大数据猩球:海量数据处理实践指南
    • 名称
    • 类型
    • 大小

    光盘服务联系方式: 020-38250260    客服QQ:4006604884

    意见反馈

    14:15

    关闭

    云图客服:

    尊敬的用户,您好!您有任何提议或者建议都可以在此提出来,我们会谦虚地接受任何意见。

    或者您是想咨询:

    用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问

    Video Player
    ×
    Audio Player
    ×
    pdf Player
    ×
    Current View

    看过该图书的还喜欢

    some pictures

    解忧杂货店

    东野圭吾 (作者), 李盈春 (译者)

    loading icon