书籍 Spark海量数据处理 技术详解与平台实战的封面

Spark海量数据处理 技术详解与平台实战

范东来

出版时间

未知

ISBN

9787115507006

评分

★★★★★
书籍介绍

本书基于Spark发行版2.4.4写作而成,包含大量的实例与一个完整项目,层次分明,循序渐进。全书分为3部分,涵盖了技术理论与实战,读者可以从实战中巩固学习到的知识。第一部分主要围绕BDAS(伯克利数据分析栈),不仅介绍了如何开发Spark应用的基础内容,还介绍了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习等高级主题,此外还介绍了Alluxio系统。第二部分实现了一个企业背景调查系统,比较新颖的是,该系统借鉴了数据湖与Lambda架构的思想,涵盖了批处理、流处理应用开发,并加入了一些开源组件来满足需求,既是对本书第一部分很好的巩固,又完整呈现了一个实时大数据应用的开发过程。第三部分是对全书的总结和展望。

本书适合准备学习Spark的开发人员和数据分析师,以及准备将Spark应用到实际项目中的开发人员和管理人员阅读,也适合计算机相关专业的高年级本科生和研究生学习和参考,对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。

范东来,北京航空航天大学硕士,泛山科技联合创始人,Spark Contributor、SupersetContributor,架构师,技术图书作者和译者,著有《Hadoop海量数据处理》,译有《解读NoSQL》《NoSQL**指南》《神经网络算法和实现》《Hadoop深度学习》《精通数据科学算法》等,另译有畅销小说《巧克力时代:因为这是我的血脉》。

目录
第 一部分 基础篇
第 1章 序篇 2
1.1 Spark与BDAS 3
1.2 Databricks 4
1.3 如何通过GitHub向Spark贡献代码 5

显示全部
用户评论
收获很大
Spark源自加州大学伯克利分校的AMP实验室,经过开源社区的多年耕耘,目前已发展成大数据生态圈中最重要的技术之一。Spark的流行不仅在计算机从业人员中,而且一些业务人员、产品经理也经常用Spark进行数据分析,Spark的影响力可见一斑。书中心心念念的Spark 3.0.0已经于2020年6月18日发布了!
前几章还可以
不错
有干货