分布式文件系统解决问题
分布式文件系统解决海量文件存储及输入访问的瓶颈问题,对海量视频和图片等的管理。
什么是文件系统
操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称文件系统
常见的文件系统:FAT16/FAT32、DTFS、HFS、UFS、APFS、XFS、Ext4等。
分布式文件系统
文件系统管理的无力储存资源不易i的那个直接连接本地节点上,而是通过计算网络与节点相连。
好处:
- 一台计算机的文件系统处理能力扩充到多台计算机同时处理。
- 一台计算机挂了还有另外副本计算机提供数据。
- 每台计算机可以放在不同的地域,这样用户就可以就近访问,提高访问速度
NFS
NFS即网络文件系统,是FreeBSD支持的文件系统中的一种,他允许网络中的计算机之间通过TCP/IP网络共享资源。在NFS的应用中,本地NFS的客户端应用可以透明地读取位于远端NFS服务器上的文件,就像访问本地文件一样。
- 在客户端上映射NFS服务器的驱动
- 客户端通过网络访问NFS服务器的硬盘完全透明。
GFS
GFS(googleFs)是一个可扩展的分布式文件系统,用于大型的分布式的、对大量数据进行访问的应用。他应用于廉价的普通硬盘上,可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。
- GFS采用主从结构,一个GFS集群由一个master和大量的chunkserver组成。
- master存储了数据文件的元数据,一个文件被分成了若干存储在多个chunkserver中。
- 用户从master中获取数据元信息,从chunkserver存储数据。
HDFS
- HDFS采用主从结构,一个HDFS集群有一个名称节结点和若干数据结点组成。名称结点存储数据的元信息,一个问政的数据文件分成若干块存储在数据结点。
- 客户端从名称结点获取数据的元信息及数据分块的信息,得到信息客户端即可从数据块来存储数据。
什么是FestDFS
fastDSF介绍
FastDFS是用
c
语言编写的一款开源的分布式文件系统,它是由淘宝资深架构师余庆编写并开源。
FastDFS
专为互联 网量身定制,充分考虑了冗余备份、负载均衡、线性扩容等机制,并注重高可用、高性能等指标使用FastDFS
很 容易搭建一套高性能的文件服务器集群提供文件上传、下载等服务。
为什么要使用
fastDFS
呢?
上边介绍的NFS
、
GFS
都是通用的分布式文件系统,通用的分布式文件系统的优点的是开发体验好,但是系统复杂 性高、性能一般,而专用的分布式文件系统虽然开发体验性差,但是系统复杂性低并且性能高。fastDFS
非常适合 存储图片等那些小文件,fastDFS不对文件进行分块,所以它就没有分块合并的开销,fastDFS网络通信采用 socket,通信速度很快。
fastDSF工作原理
fastDSF架构
FastDFS架构包括
Tracker server
和
Storageserver
。客户端请求
Tracker server
进行文件上传、下载,通过
Tracker server调度最终由
Storage server
完成文件上传和下载。
tracker
Tracker Server作用是负载均衡和调度,通过
Tracker server
在文件上传时可以根据一些策略找到
Storage server
提 供文件上传服务。可以将tracker
称为追踪服务器或调度服务器。
FastDFS集群中的
Tracker server
可以有多台,
Tracker server
之间是相互平等关系同时提供服务,
Tracker server 不存在单点故障。客户端请求Tracker server
采用轮询方式,如果请求的
tracker
无法提供服务则换另一个
tracker
。
Storage
Storage Server作用是文件存储,客户端上传的文件最终存储在
Storage
服务器上,
Storage server
没有实现自己 的文件系统而是使用操作系统的文件系统来管理文件。可以将storage
称为存储服务器。
Storage集群采用了分组存储方式。
storage
集群由一个或多个组构成,集群存储总容量为集群中所有组的存储容 量之和。一个组由一台或多台存储服务器组成,组内的Storage server
之间是平等关系,不同组的
Storage server 之间不会相互通信,同组内的Storage server
之间会相互连接进行文件同步,从而保证同组内每个
storage
上的文件 完全一致的。一个组的存储容量为该组内的存储服务器容量最小的那个,由此可见组内存储服务器的软硬件配置最
好是一致的。
采用分组存储方式的好处是灵活、可控性较强。比如上传文件时,可以由客户端直接指定上传到的组也可以由 tracker进行调度选择。一个分组的存储服务器访问压力较大时,可以在该组增加存储服务器来扩充服务能力(纵向 扩容)。当系统容量不足时,可以增加组来扩充存储容量(横向扩容)。
Storage
状态收集
Storage server会连接集群中所有的
Tracker server
,定时向他们报告自己的状态,包括磁盘剩余空间、文件同步 状况、文件上传下载次数等统计信息。
文件上传流程
客户端上传文件后
存储服务器
将
文件
ID
返回给客户端,此文件
ID
用于以后访问该文件的索引信息。文件索引信息 包括:组名,虚拟磁盘路径,数据两级目录,文件名。
- 组名:文件上传后所在的storage组名称,在文件上传成功后有storage服务器返回,需要客户端自行保存。
- 虚拟磁盘路径:storage配置的虚拟路径,与磁盘选项store_path*对应。如果配置了store_path0则是M00, 如果配置了store_path1则是M01,以此类推。
- 数据两级目录:storage服务器在每个虚拟磁盘路径下创建的两级目录,用于存储数据文件。
- 文件名:与文件上传时不同。是由存储服务器根据特定信息生成,文件名包含:源存储服务器IP地址、文件创 建时间戳、文件大小、随机数和文件拓展名等信息。
文件下载流程
tracker根据请求的文件路径即文件ID 来快速定义文件。
比如请求下边的文件:
- 通过组名tracker能够很快的定位到客户端需要访问的存储服务器组是group1,并选择合适的存储服务器提供客 户端访问。
- 存储服务器根据“文件存储虚拟磁盘路径”和“数据文件两级目录”可以很快定位到文件所在目录,并根据文件名找到客户端需要访问的文件