本书对想学习数据分析的人来说是一本很好实用的参考书,书中有多个真实的数据分析案例,几乎是以手把手的方式教你一步一步地完成从数据分析的准备到分析结果报告的整个流程。无论是数据分析工作的从业者,还是有志于未来从事数据分析工作的在校大学生,都能从本书中获取一些新知识、新思想。
同时,本书也是一本学习和提高R及Python编程的参考书。很多人有这样的感触,单纯地学习编程语言是很枯燥的过程,但利用本书学习R和Python语言可以很好地解决这个问题,生动实用的数据集以及很好有意思的分析结果会极大地激发读者学习的兴趣。
本书案例包括汽车数据分析、税收数据分析、就业数据分析、股市数据分析、社交网络分析、大规模电影推荐、Twitter数据分析、新西兰海外游客预测分析以及德国信用数据分析等。         
         
             
             第 1章  准备数据科学环境	1
1.1  理解数据科学管道	2
1.1.1  操作流程	2
1.1.2  工作原理	3
1.2  在Windows、Mac OS X和Linux上安装R	4
1.2.1  准备工作	4
1.2.2  操作流程	4
1.2.3  工作原理	6
1.3  在R和RStudio中安装扩展包	6
1.3.1  准备工作	6
1.3.2  操作流程	6
1.3.3  工作原理	8
1.3.4  更多内容	8
1.4  在Linux和Mac OS X上安装Python	9
1.4.1  准备工作	9
1.4.2  操作流程	9
1.4.3  工作原理	9
1.5  在Windows上安装Python	10
1.5.1  操作流程	10
1.5.2  工作原理	11
1.6  在Mac OS X和Linux上安装Python数据库	11
1.6.1  准备工作	11
1.6.2  操作流程	12
1.6.3  工作原理	12
1.6.4  更多内容	13
1.7  安装更多Python包	13
1.7.1  准备工作	14
1.7.2  操作流程	14
1.7.3  工作原理	15
1.7.4  更多内容	15
1.8  安装和使用virtualenv	15
1.8.1  准备工作	16
1.8.2  操作流程	16
1.8.3  工作原理	18
1.8.4  更多内容	18
    
第 2章  基于R的汽车数据可视化分析	19
2.1  简介	19
2.2  获取汽车燃料效率数据	20
2.2.1  准备工作	20
2.2.2  操作流程	20
2.2.3  工作原理	21
2.3  为你的第 一个分析项目准备好R	21
2.3.1  准备工作	21
2.3.2  操作流程	21
2.3.3  更多内容	22
2.4  将汽车燃料效率数据导入R	22
2.4.1  准备工作	22
2.4.2  操作流程	22
2.4.3  工作原理	24
2.4.4  更多内容	24
2.5  探索并描述燃料效率数据	25
2.5.1  准备工作	25
2.5.2  操作流程	25
2.5.3  工作原理	27
2.5.4  更多内容	28
2.6  分析汽车燃料效率数据随时间的变化情况	29
2.6.1  准备工作	29
2.6.2  操作流程	29
2.6.3  工作原理	37
2.6.4  更多内容	38
2.7  研究汽车的品牌和型号	38
2.7.1  准备工作	39
2.7.2  操作流程	39
2.7.3  工作原理	41
2.7.4  更多内容	41
    
第3章  基于Python的税收数据应用导向分析	42
3.1  简介	42
3.2  高收入数据分析的准备工作	44
3.2.1  准备工作	44
3.2.2  操作流程	44
3.2.3  工作原理	45
3.3  导入并探索性地分析世界高收入数据集	45
3.3.1  准备工作	45
3.3.2  操作流程	45
3.3.3  工作原理	51
3.3.4  更多内容	52
3.4  分析并可视化美国高收入数据	53
3.4.1  准备工作	53
3.4.2  操作流程	53
3.4.3  工作原理	59
3.5  进一步分析美国高收入群体	60
3.5.1  准备工作	60
3.5.2  操作流程	60
3.5.3  工作原理	64
3.6  使用Jinja2汇报结果	64
3.6.1  准备工作	64
3.6.2  操作流程	64
3.6.3  工作原理	69
3.6.4  更多内容	69
3.7  基于R的数据分析再实现	70
3.7.1  准备工作	70
3.7.2  操作流程	70
3.7.3  更多内容	74
    
第4章  股市数据建模	75
4.1  简介	75
4.2  获取股市数据	76
4.3  描述数据	78
4.3.1  准备工作	78
4.3.2  操作流程	78
4.3.3  工作原理	79
4.3.4  更多内容	79
4.4  清洗并探索性地分析数据	80
4.4.1  准备工作	80
4.4.2  操作流程	80
4.4.3  工作原理	85
4.5  生成相对估值	85
4.5.1  准备工作	86
4.5.2  操作流程	86
4.5.3  工作原理	89
4.6  筛选股票并分析历史价格	90
4.6.1  准备工作	90
4.6.2  操作流程	90
4.6.3  工作原理	95
    
第5章  就业数据可视化探索	96
5.1  简介	96
5.2  分析前的准备工作	97
5.2.1  准备工作	97
5.2.2  操作流程	97
5.2.3  工作原理	98
5.3  将就业数据导入R	99
5.3.1  准备工作	99
5.3.2  操作流程	99
5.3.3  工作原理	99
5.3.4  更多内容	100
5.4  探索就业数据	101
5.4.1  准备工作	101
5.4.2  操作流程	101
5.4.3  工作原理	102
5.5  获取、合并附加数据	103
5.5.1  准备工作	103
5.5.2  操作流程	103
5.5.3  工作原理	105
5.6  添加地理信息	105
5.6.1  准备工作	106
5.6.2  操作流程	106
5.6.3  工作原理	108
5.7  提取州和县级水平         
         
             
             作者简介
Prabhanjan Tattar有9年的统计分析工作经验。他的精力集中在通过简洁优美的程序解释统计和机器学习技术上。他已经写作了两本关于R的书,并在维护几个R包:gpk、RSADBE和ACSWR。
Tony Ojeda是一位经验丰富的数据科学家和企业家,在商业流程的zui优化方面很好专业,他是华盛顿特区数据实验室的创始人,致力于数据科学的教育事业和活动组织。
Sean Patrick Murphy在约翰? 霍普金斯大学的应用物理实验室做了15年的不错科研人员,他专注于机器学习、信号处理以及高性能计算等。他是MD数据科学见面会的联合创始人。
Benjamin Bengfort是一位很好有经验的数据科学家和Python开发者。他曾在业界和学术界工作过8年。他现在在马里兰大学派克学院攻读计算机博士学位
Abhijit Dasgupta有多年的生物制药行业咨询、商业分析、生物信息以及生物工程咨询方面的经验。他拥有华盛顿大学生物统计专业的博士学位,是华盛顿特区统计编程社群的创始人和联合组织者。
译者简介
刘旭华,现为中国农业大学理学院应用数学系副教授,北京理工大学博士,美国北卡莱罗纳大学教堂山分校访问学者,主要从事数理统计、数据科学、数学与统计软件等领域的教学与科研工作,主持及参与过多项国家自然科学基金、北京市自然科学基金等项目。
李晗,2015年毕业于广州华南理工大学,硕士期间主要从事信号处理、数据分析方面的研究。目前就职于中兴通讯,主要从事数据库、数据分析、容器化微服务方面的开发与运维工作。
闫晗:中国人民大学统计学院硕士,“统计之都”编辑部“搬砖工”。