写给程序员的数据挖掘实践指南

副标题:无

作   者:(美) 扎哈尔斯基 著,王斌 译

分类号:

ISBN:9787115336354

微信扫一扫,移动浏览光盘

简介

  数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。大多数数据挖掘的教材都专注于介绍理论基础,因而往往难以理解和学习。  本书是介绍写给程序员的一本数据挖掘指南,可以帮助读者动手实践进行数据挖掘、集体智慧并构建推荐系统。全书共8章,介绍了数据挖掘的基本知识和理论、协同过滤、内容过滤及分类、算法评估、朴素贝叶斯、非结构化文本分类以及聚类等内容。全书采用做中学的方式,用生动的图示、大量的表格、简明的公式,实用的Python代码示例,阐释数据挖掘的知识和技能。每章还给出了习题和练习,帮助读者巩固所学的知识。  本书专注适合对数据挖掘、数据分析和推荐系统感兴趣的程序员及相关领域的从业者阅读参考;同时,本书也可以作为一本轻松有趣的数据挖掘课程教学参考书。

目录

第1章 数据挖掘简介及本书使用方法
 欢迎来到21世纪
 并不只是对象
 TB级挖掘是现实不是科幻
 本书体例
第2章 协同过滤-爱你所爱
 如何寻找相似用户
 曼哈顿距离
 欧氏距离
 N维下的思考
 一般化
 Python中数据表示方法及代码
 计算曼哈顿距离的代码
 用户的评级差异
 皮尔逊相关系数
 在继续之前稍微休息一下
 *后一个公式-余弦相似度
 相似度的选择
 一些怪异的事情
 k近邻
 Python的一个推荐类
 一个新数据集
第3章 协同过滤-隐式评级及基于物品的过滤
 隐式评级
 调整后的余弦相似度
 Slope One算法
 Slope One算法的粗略描述图
 基于Python的实现
 加权Slope One:推荐模块
 MovieLens数据集
第4章 内容过滤及分类-基于物品属性的过滤
 一个简单的例子
 用Python实现
 给出推荐的原因
 一个取值范围的问题
 归一化
 改进的标准分数
 归一化 vs. 不归一化
 回到Pandora
 体育项目的识别
 Python编程
 就是它了
 汽车MPG数据
 杂谈
第5章 分类的进一步探讨-算法评估及kNN
 训练集和测试集
 10折交叉验证的例子
 混淆矩阵
 一个编程的例子
 Kappa统计量
 近邻算法的改进
 一个新数据集及挑战
 更多数据、更好的算法以及一辆破公共汽车
第6章 概率及朴素贝叶斯-朴素贝叶斯
 微软购物车
 贝叶斯定理
 为什么需要贝叶斯定理
 i100 i500
 用Python编程实现
 共和党 vs. 民主党
 数字
 Python实现
 这种做法会比近邻算法好吗
第7章 朴素贝叶斯及文本-非结构化文本分类
 一个文本正负倾向性的自动判定系统
 训练阶段
第8章 聚类-群组发现
 k-means聚类
 SSE或散度
 小结
 安然公司

已确认勘误

次印刷

页码 勘误内容 提交人 修订印次

写给程序员的数据挖掘实践指南
    • 名称
    • 类型
    • 大小

    光盘服务联系方式: 020-38250260    客服QQ:4006604884

    意见反馈

    14:15

    关闭

    云图客服:

    尊敬的用户,您好!您有任何提议或者建议都可以在此提出来,我们会谦虚地接受任何意见。

    或者您是想咨询:

    用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问

    Video Player
    ×
    Audio Player
    ×
    pdf Player
    ×
    Current View

    看过该图书的还喜欢

    some pictures

    解忧杂货店

    东野圭吾 (作者), 李盈春 (译者)

    loading icon