写给程序员的数据挖掘实践指南

副标题：无

作者：（美）扎哈尔斯基　著，王斌　译

分类号：

ISBN：9787115336354

收录收藏 (0) 评论纠错

微信扫一扫,移动浏览光盘

简介

简介

　　数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。大多数数据挖掘的教材都专注于介绍理论基础，因而往往难以理解和学习。　　本书是介绍写给程序员的一本数据挖掘指南，可以帮助读者动手实践进行数据挖掘、集体智慧并构建推荐系统。全书共8章，介绍了数据挖掘的基本知识和理论、协同过滤、内容过滤及分类、算法评估、朴素贝叶斯、非结构化文本分类以及聚类等内容。全书采用做中学的方式，用生动的图示、大量的表格、简明的公式，实用的Python代码示例，阐释数据挖掘的知识和技能。每章还给出了习题和练习，帮助读者巩固所学的知识。　　本书专注适合对数据挖掘、数据分析和推荐系统感兴趣的程序员及相关领域的从业者阅读参考；同时，本书也可以作为一本轻松有趣的数据挖掘课程教学参考书。

第1章数据挖掘简介及本书使用方法
　欢迎来到21世纪
　并不只是对象
　TB级挖掘是现实不是科幻
　本书体例
第2章协同过滤-爱你所爱
　如何寻找相似用户
　曼哈顿距离
　欧氏距离
　N维下的思考
　一般化
　Python中数据表示方法及代码
　计算曼哈顿距离的代码
　用户的评级差异
　皮尔逊相关系数
　在继续之前稍微休息一下
　*后一个公式-余弦相似度
　相似度的选择
　一些怪异的事情
　k近邻
　Python的一个推荐类
　一个新数据集
第3章协同过滤-隐式评级及基于物品的过滤
　隐式评级
　调整后的余弦相似度
　Slope One算法
　Slope One算法的粗略描述图
　基于Python的实现
　加权Slope One：推荐模块
　MovieLens数据集
第4章内容过滤及分类-基于物品属性的过滤
　一个简单的例子
　用Python实现
　给出推荐的原因
　一个取值范围的问题
　归一化
　改进的标准分数
　归一化 vs. 不归一化
　回到Pandora
　体育项目的识别
　Python编程
　就是它了
　汽车MPG数据
　杂谈
第5章分类的进一步探讨-算法评估及kNN
　训练集和测试集
　10折交叉验证的例子
　混淆矩阵
　一个编程的例子
　Kappa统计量
　近邻算法的改进
　一个新数据集及挑战
　更多数据、更好的算法以及一辆破公共汽车
第6章概率及朴素贝叶斯-朴素贝叶斯
　微软购物车
　贝叶斯定理
　为什么需要贝叶斯定理
　i100 i500
　用Python编程实现
　共和党 vs. 民主党
　数字
　Python实现
　这种做法会比近邻算法好吗
第7章朴素贝叶斯及文本-非结构化文本分类
　一个文本正负倾向性的自动判定系统
　训练阶段
第8章聚类-群组发现
　k-means聚类
　SSE或散度
　小结
　安然公司

已确认勘误

页码	勘误内容	提交人	修订印次

光盘服务联系方式: 020-38250260 客服QQ：4006604884

意见反馈

14:15

关闭

写给程序员的数据挖掘实践指南

已确认勘误

第次印刷 筛选

第次印刷