敏捷数据科学:用Hadoop创建数据分析应用

副标题:无

作   者:Russell Jurney(拉塞尔·朱尔尼) 著

分类号:

ISBN:9787121236198

微信扫一扫,移动浏览光盘

简介

  《敏捷数据科学:用Hadoop创建数据分析应用》面向大数据挖掘,以敏捷视角呈现高效构建数据模型的全程实践和思路。在一组以一个真实电子邮箱数据挖掘为例的数据-价值金字塔进阶模式中,你将学到:一整套实用工具及其方法论,可快速实现在Hadoop 上构建数据分析应用;用Python、Apache Pig 及D3.js等轻量级工具创建用于探索数据的敏捷环境;一种可根据数据中信息快速切换,进行不同类型数据分析的迭代式开发方法。  《敏捷数据科学:用Hadoop创建数据分析应用》适合所有与数据工作相关的从业者,同时也适合有志成为数据科学工作者的广大读者作为入门读物。

目录

第1部分起步
第1章理论
敏捷大数据
BigWords定义
敏捷大数据团队
认识机遇和问题
敏捷大数据流程
代码检查和结对编程
敏捷的场所:开发的效率
协作空间
私人空间
个人空间
用大幅打印件明确表达想法
第2章数据
电子邮件
处理原始数据
原始的电子邮件
结构化与半结构化数据
SQL
NoSQL
序列化
从演变的模式中抽取和展示特征
数据流水线
数据透视
社交网络
时间序列
自然语言
概率
小结
第3章敏捷开发工具
可扩展性=简洁
敏捷大数据处理
设置运行Python的虚拟环境
使用Avro对事件进行序列化
在Python中使用Avro
收集数据
使用Pig处理数据
安装Pig
使用MongoDB发布数据
安装MongoDB
安装MongoDB的Java驱动程序
安装mongo-hadoop
用Pig向MongoDB推送数据
使用ElasticSearch搜索数据
安装
使用Wonderdog整合ElasticSearch和Pig
对工作流程的反思
轻量级的Web应用
Python和Flask
展示数据
安装Bootstrap
启用Bootstrap
使用d3js和nvd3js可视化数据
小结
第4章在云端
引言
GitHub
dotCloud
dotCloudEcho服务
Python工作者服务
AmazonWebServices
SimpleStorageService
ElasticMapReduce
MongoDB即服务
辅助工具(Instrumentation)
GoogleAnalytics
MortarData
第2部分登上金字塔
第5章收集和展示数据
整合软件栈
收集并序列化收件箱
处理和发布邮件数据
在浏览器中显示邮件
用Flask和pymongo处理邮件数据
使用Jinja2渲染HTML5页面
敏捷检查点
生成电子邮件清单
用MongoDB显示邮件
对数据展示的分析
搜索邮件
使用Pig,ElasticSearch和Wonderdog构建索引
在网页中搜索邮件数据
结论
第6章使用图表可视化数据
优秀的图表
抽取实体:邮件地址
抽取邮件
对时间进行可视化
结论
第7章利用报表探索数据
为数据添加联系
用TF-IDF从邮件中提取关键字
小结
第8章预测
预测电子邮件的回复率
个性化
小结
第9章驱动行动
好邮件的属性
使用朴素贝叶斯方法进行更好的预测
P(Reply|From∩To)
P(Reply|Token)
实时预测
记录事件日志
小结
索引


已确认勘误

次印刷

页码 勘误内容 提交人 修订印次

敏捷数据科学:用Hadoop创建数据分析应用
    • 名称
    • 类型
    • 大小

    光盘服务联系方式: 020-38250260    客服QQ:4006604884

    意见反馈

    14:15

    关闭

    云图客服:

    尊敬的用户,您好!您有任何提议或者建议都可以在此提出来,我们会谦虚地接受任何意见。

    或者您是想咨询:

    用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问

    Video Player
    ×
    Audio Player
    ×
    pdf Player
    ×
    Current View

    看过该图书的还喜欢

    some pictures

    解忧杂货店

    东野圭吾 (作者), 李盈春 (译者)

    loading icon