常用的分布式文件系统浅解

时间：2019-06-21 11:47:44人气：次作者：快盘下载我要评论

什么是分布式存储：

将数据分散存储在网络上的多台独立设备上，一般采用标准x86服务器和网络互联，并在其上运行相关存储软件，系统对外作为一个整体提供存储服务。分布式文件存储，不仅提高了存储空间的利用率，还实现了弹性扩展，降低了运营成本，避免了资源浪费。

常见的分布式文件系统

GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统，而是应用级的分布式文件存储服务。

知名开源分布式文件存储

1.GFS（Google File System）

Google公司为了满足本公司需求而开发的基于Linux的专有分布式文件系统。尽管Google公布了该系统的一些技术细节，但Google并没有将该系统的软件部分作为开源软件发布。

2.HDFS

Hadoop 实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。 Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文本搜索库。它起源于Apache Nutch，

后者是一个开源的网络搜索引擎，本身也是Luene项目的一部分。Aapche Hadoop架构是MapReduce算法的一种开源应用，是Google开创其帝国的重要基石。

3.TFS

TFS（Taobao FileSystem）是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统，主要针对海量的非结构化数据，它构筑在普通的Linux机器集群上，可为外部提供高可靠

和高并发的存储访问。TFS为淘宝提供海量小文件存储，通常文件大小不超过1M，满足了淘宝对小文件存储的需求，被广泛地应用在淘宝各项应用中。它采用了HA架构和平滑扩容，保证了整个文件系统的可用性和扩展性。同时扁平化的数据组织结构，可将文件名映射到文件的物理地址，简化了文件的访问流程，一定程度上为TFS提供了良好的读写性能。

Google学术论文，这是众多分布式文件系统的起源，HDFS和TFS都是参考Google的GFS设计出来的。

分布式存储案例：

大规模数据集我以hadoop的HDFS为例

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的

HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。

以上内容来自互联网，均为本人学习使用，不能作为标准参考。

学习扩展关键词：

IaaS 基础设施服务

PaaS 应用层面弹性

SaaS 软件即服务

Xen

KVM

vmware ESX

OpenStack

docker

spark

redis

hadoop

HDFS: 分布式文件存储

YARN: 分布式资源管理

MapReduce: 分布式计算

上一篇：Resharper安装后Visual Studio启动速度和显示有什么区别

下一篇：Hadoop实现[HDFS]分布式文件系统入门

CentOS7搭建keepalived+DRBD+NFS高可用共享存储

CentOS7搭建keepalived+DRBD+NFS高可用共享存储,3、安装软件（如果没有yum源，则需要先配置yum源）2个节点创建挂载点目录：mkdir /data。主节点：mkfs.xfs /dev/drbd0。centos7.9镜像 2台主机。1、关闭防火墙，禁用SELinux（2台）2、配置hosts文件（2台）等待一段时间进行检查同步情况。在从上执行以下命令确认文件。卸载文件系统并切换为备节点。配置2台服务器之间的免密。将配置传送到node2。...
详解创建逻辑卷，使用NFS服务器共享文件，并设置权限

创建逻辑卷，使用NFS服务器共享文件，并设置权限,1.创建一个逻辑卷请按下列要求创建一个新的逻辑卷：创建一个名为 datastore 的卷组，卷组的大小为4G 逻辑卷的名字为 database ,所属卷组为 datastore,该逻辑卷大小为3G 将新建的逻辑卷格式化为 xfs 文件系统，2.通过自动挂载将该逻辑卷到/volume/lv13.扩大卷组扩展上题database逻辑卷的大小为5G。...