Spark海量数据处理技术详解与平台实战

范东来

出版社

人民邮电出版社

出版时间

未知

ISBN

9787115507006

评分

★★★★★

标签

工业技术

书籍介绍

本书基于Spark发行版2.4.4写作而成，包含大量的实例与一个完整项目，层次分明，循序渐进。全书分为3部分，涵盖了技术理论与实战，读者可以从实战中巩固学习到的知识。第一部分主要围绕BDAS（伯克利数据分析栈），不仅介绍了如何开发Spark应用的基础内容，还介绍了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习等高级主题，此外还介绍了Alluxio系统。第二部分实现了一个企业背景调查系统，比较新颖的是，该系统借鉴了数据湖与Lambda架构的思想，涵盖了批处理、流处理应用开发，并加入了一些开源组件来满足需求，既是对本书第一部分很好的巩固，又完整呈现了一个实时大数据应用的开发过程。第三部分是对全书的总结和展望。

本书适合准备学习Spark的开发人员和数据分析师，以及准备将Spark应用到实际项目中的开发人员和管理人员阅读，也适合计算机相关专业的高年级本科生和研究生学习和参考，对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。

范东来，北京航空航天大学硕士，泛山科技联合创始人，Spark Contributor、SupersetContributor，架构师，技术图书作者和译者，著有《Hadoop海量数据处理》，译有《解读NoSQL》《NoSQL**指南》《神经网络算法和实现》《Hadoop深度学习》《精通数据科学算法》等，另译有畅销小说《巧克力时代：因为这是我的血脉》。

第一部分基础篇

第　1章序篇　2

1．1　Spark与BDAS　3

1．2　Databricks　4

1．3　如何通过GitHub向Spark贡献代码　5

显示全部

用户评论

收获很大

Spark源自加州大学伯克利分校的AMP实验室，经过开源社区的多年耕耘，目前已发展成大数据生态圈中最重要的技术之一。Spark的流行不仅在计算机从业人员中，而且一些业务人员、产品经理也经常用Spark进行数据分析，Spark的影响力可见一斑。书中心心念念的Spark 3.0.0已经于2020年6月18日发布了！

前几章还可以

不错

有干货

Spark海量数据处理 技术详解与平台实战

Spark海量数据处理技术详解与平台实战