CGFT知识点解析：什么是批处理计算？

编辑：融跃教育 2021-12-20 09:06:59

批处理计算是CGFT所包含的内容，那么，具体的什么是批处理计算？下文是对它的详细介绍，一起随融跃小编了解一下！

批处理计算主要解决针对大规模数据的批量处理，也是我们日常数据分析工作中常见的一类数据处理需求。

MapReduce是具有代表性和影响力的大数据批处理技术，可以并行执行大规模数据处理任务，用于大规模数据集（大于1TB）的并行运算。

MapReduce方便了分布式编程工作，它将复杂的、运行于大规模集群上的并行计算过程高度的抽象到了两个函数--Map和Reduce，编程人员在不会分布式并行编程的情况下，也可以很容易将自己的程序运行在分布式系统上，完成海量数据集的计算。

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统，比MapReduce快很多。Spark启用了内存分布数据集，除了能够提供交互式查询外，还可以优化迭代式工作负载。

在MapReduce中，数据流从一个稳定的来源，进行一系列加工处理后，流出到一个稳定的文件系统（如HDFS）。而对于spark而言，则使用内存替代HDFS或本地磁盘来存储中间结果，因此，spark要比MapReduce的速度快许多。

声明：本文章为学习相关信息展示文章，非课程及服务内容文章，产品及服务详情可咨询网站客服微信。文章转载须注明来源，文章素材来源于网络，若侵权请与我们联系，我们将及时处理。