在CGFT中,大数据处理框架Hadoop是重要知识点。具体什么是Hadoop,下文作详细介绍!
Hadoop是Apache软件基金会旗下一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础机构。
Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。Hadoop的核心是分布式文件系统和MapReduce。
HAFS是对谷歌文件系统的开源实现,是面向普通硬件环境的分布式文件系统,具有较高的读写速度、很好的容错性和可伸缩性,支持大规模数据的分布式存储,其冗余数据存储的方式很好地保zheng了数据的安全性。MapReduce是针对古河MapReduce来整合分布式文件系统上的数据,可以保zheng分析和处理数据的高效性。借助于Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于廉价计算机集群上,完成海量数据的存储与计算。
Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop。

声明:本文章为学习相关信息展示文章,非课程及服务广告文章,产品及服务详情可咨询网站客服微信。
文章转载须注明来源,文章素材来源于网络,若侵权请与我们联系,我们将及时处理。