本书首先介绍数据分析的方法论,然后介绍数据分析的相关模型方法,并进一步通过数据分析案例,讲解数据分析的思维、方法及模型实现过程。本书重点介绍R语言在数据分析方面的应用,让读者能够快速地使用R语言进行数据分析、构建模型。
本书分为17章,内容包括:使用R语言获取数据、数据分析中的数据处理与数据探索、生存分析、主成分分析、多维缩放、线性回归模型、逻辑回归模型、聚类模型、关联规则、随机森林、支持向量机、神经网络、文本挖掘、社交网络分析,以及关于R语言数据分析的两个延伸内容:H2O机器学习和R语言爬虫。
本书内容通俗易懂,案例丰富,实用性强,特别适合R语言的入门读者和进阶读者阅读,也适合数据分析人员、数据挖掘人员等其他数据科学从业者。另外,本书也适用于统计学、计算机、机器学习、数学等相关专业的本科生、研究生使用。
第1章 数据分析项目的流程
1.1 数据分析项目中的角色
1.2 数据分析项目的阶段
1.2.1 制定目标
1.2.2 收集数据
1.2.3 数据处理和分析
1.2.4 构建模型
1.2.5 评估模型
1.2.6 展示结果
1.2.7 部署与维护模型
1.3 总结
第2章 数据的读取
2.1 RData数据
2.2 readr高效读取数据
2.3 读取Excel数据
2.4 读取SPSS、SAS、STATA数据
2.5 R语言操作数据库
2.6 总结
第3章 数 据 探 索
3.1 缺失值的识别与处理
3.1.1 缺失值的识别与描述性统计
3.1.2 缺失值的可视化展示
3.1.3 缺失值的处理方法
3.2 异常值
3.3 dlookr数据处理包
3.3.1 所有变量的一般性诊断
3.3.2 数值型变量的诊断
3.3.3 分类变量的诊断
3.3.4 异常值的诊断
3.3.5 创建诊断报告
3.3.6 数据处理
3.3.7 缺失值处理
3.3.8 异常值处理
3.3.9 数据转换
3.3.10 数据分箱
3.3.11 创建数据转换报告
3.4 数据相关性
3.5 自动化创建数据探索报告
3.6 总结
第4 章 生存分析
4.1 生存分析的基本内容
4.2 使用R 语言进行生存分析
4.3 非参数模型
4.3.1 使用Kaplan-Meier 方法拟合数据
4.3.2 Kaplan-Meier 方法的可视化
4.4 半参数模型生存分析方法
4.4.1 构建Cox 模型
4.4.2 检查假设
4.4.3 Coxph 模型可视化
4.4.4 预测
米霖, 毕业于华中农业大学, 本科数学专业, 研究生统计学专业。