基于R语言的自动数据收集:网络抓取和文本挖掘实用指南

副标题:无

作   者:[德]西蒙·蒙策尔特等

分类号:

ISBN:9787111527503

微信扫一扫,移动浏览光盘

简介

本书共17章。第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识。这一部分内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱。这一部分由三个核心章节组成:第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。

目录

译者序

 

1章概述

1.1
案例研究:濒危世界遗产地

1.2
有关网络数据质量的一些讨论

1.3
传播、提取和保存网络数据的技术

1.3.1
在网络上传播内容的技术

1.3.2
Web文档中提取信息的

技术

1.3.3 
数据保存的技术

1.4
本书的结构

第一部分网络和数据技术入门

2HTML

2.1
浏览器显示及源代码

2.2
语法规则

2.2.1
标签、元素和属性

2.2.2
树形结构

2.2.3
注释

2.2.4
保留字符和特殊字符

2.2.5
文档类型定义

2.2.6 
空格和换行

2.3
标签和属性

2.3.1 
锚标签<a>

2.3.2 
元数据标签<meta>

2.3.3 
外部引用标签<link>

2.3.4 
强调标签<b><i>

<StrOng>

2.3.5
段落标签<p>

2.3.6 
标题标签<hl><h2>

<h3>


2.3.7 
通过<ul><ol><dl>

列举内容

2.3.8
组织型标签<div>

<Span>

2.3.9 <form>
标签及其同伴

2.3.10 
外部脚本标签<script>

2.3.11 
表格标签<table><tr>

<td>
<th>

2.4
解析

2.4.1 
解析简介

2.4.2
丢弃节点

2.4.3
在创建过程中提取信息

小结

延伸阅读

习题

3  XMLJSON

3.1  XML
文档示例

3.2 XML
语法规则

3.2.1 
元素和属性

3.2.2 XML
结构

4xpath

5HTTP

6AJAX

7SQL和关系型数据库

8章正则表达式和基本字符串函数

第二部分网络抓取和文本挖掘实用工具箱

9章网络抓取

10章统计性文本处理

11章管理数据项目

第三部分一组案例分析

12章美国参议院里的合作网络

13章从半结构化文档解析信息

14章利用Twitter预测2014年奥斯卡奖

15章绘制姓氏地理分布图

16章采集关于手机的数据

17章分析产品评论里的情绪

 

已确认勘误

次印刷

页码 勘误内容 提交人 修订印次

基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
    • 名称
    • 类型
    • 大小

    光盘服务联系方式: 020-38250260    客服QQ:4006604884

    意见反馈

    14:15

    关闭

    云图客服:

    尊敬的用户,您好!您有任何提议或者建议都可以在此提出来,我们会谦虚地接受任何意见。

    或者您是想咨询:

    用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问

    Video Player
    ×
    Audio Player
    ×
    pdf Player
    ×
    Current View

    看过该图书的还喜欢

    some pictures

    解忧杂货店

    东野圭吾 (作者), 李盈春 (译者)

    loading icon