hdfs命令的完整形式:
hdfs [options] subcommand [subcommand options]
其中subcommand有三种形式:
dfs(文件系统命令),这个是HDFS里,日常使用最为频繁的一种命令,用来在HDFS的文件系统上运行各种文件系统命令,如查看文件、删除文件等。
基本语法:
hadoop fs 具体命令
hdfs dfs 具体命令
这俩基本是一样的。
前一个命令据说是可以用于其他文件系统,不止是hdfs文件系统内。
后一个命令是专门针对hdfs分布式文件系统。推荐使用这个吧
据说原先还有个hadoop dfs
,目前已经废弃不用了,被hdfs dfs
所取代。
在shell里打hdfs dfs
,可以查看其帮助命令(可以看到展示的是hadoop fs的):
Usage: hadoop fs [generic options]
[-appendToFile ... ]
[-cat [-ignoreCrc] ...]
[-checksum ...]
[-chgrp [-R] GROUP PATH...]
[-chmod [-R] PATH...]
[-chown [-R] [OWNER][:[GROUP]] PATH...]
[-copyFromLocal [-f] [-p] [-l] [-d] [-t ] ... ]
[-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] ... ]
[-count [-q] [-h] [-v] [-t []] [-u] [-x] [-e] ...]
[-cp [-f] [-p | -p[topax]] [-d] ... ]
[-createSnapshot []]
[-deleteSnapshot ]
[-df [-h] [ ...]]
[-du [-s] [-h] [-v] [-x] ...]
[-expunge]
[-find ... ...]
[-get [-f] [-p] [-ignoreCrc] [-crc] ... ]
[-getfacl [-R] ]
[-getfattr [-R] {-n name | -d} [-e en] ]
[-getmerge [-nl] [-skip-empty-file] ]
[-help [cmd ...]]
[-ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [-e] [ ...]]
[-mkdir [-p] ...]
[-moveFromLocal ... ]
[-moveToLocal ]
[-mv ... ]
[-put [-f] [-p] [-l] [-d] ... ]
[-renameSnapshot ]
[-rm [-f] [-r|-R] [-skipTrash] [-safely] ...]
[-rmdir [--ignore-fail-on-non-empty] ...]
[-setfacl [-R] [{-b|-k} {-m|-x } ]|[--set ]]
[-setfattr {-n name [-v value] | -x name} ]
[-setrep [-R] [-w] ...]
[-stat [format] ...]
[-tail [-f] ]
[-test -[defsz] ]
[-text [-ignoreCrc] ...]
[-touch [-a] [-m] [-t TIMESTAMP ] [-c] ...]
[-touchz ...]
[-truncate [-w] ...]
[-usage [cmd ...]]
Generic options supported are:
-conf specify an application configuration file
-D define a value for a given property
-fs specify default filesystem URL to use, overrides 'fs.defaultFS' property from configurations.
-jt specify a ResourceManager
-files specify a comma-separated list of files to be copied to the map reduce cluster
-libjars specify a comma-separated list of jar files to be included in the classpath
-archives specify a comma-separated list of archives to be unarchived on the compute machines
The general command line syntax is:
command [genericOptions] [commandOptions]
下面展示一下常用的:
hdfs dfs -ls <path> # 常规的ls展示目录信息
hdfs dfs -rm # 删除文件
hdfs dfs -rmdir # 删除目录
hdfs dfs -mkdir # 创建路径
hdfs dfs -cp src> ... <dst> # 将前面路径的文件拷贝到后面路径
hdfs dfs -mv # 功能同上,但是是剪切式移动文件
hdfs dfs -count <path> # 依次展示路径下的目录数、文件数、占用空间大小、路径
hdfs dfs -stat
hdfs dfs -tail # 可以用于采样展示文本内容,显示一个文件的末尾1KB的数据
hdfs dfs -cat <src> # 显示文件内容
hdfs dfs -touch # 路径处生成空白文件,若文件已存在,则修改文件的访问时间
hdfs dfs -touchz # 路径处生成空白文件,若文件存在,则什么都不发生,不会更改现有文件的时间戳
hdfs dfs -du <path> # 打印路径下各子目录的空间占用情况,第一列表示实际文件大小,第二列表示实际文件大小 * 备份数
hdfs dfs -du -s <path> # 直接加和,只显示最终的
hdfs dfs -df <path> # 显示目录所在磁盘的整体空间占用,包含所有副本
hdfs dfs -setrep 副本数 filepath # 设置HDFS中文件的副本数量。如果设置的副本数超过了节点数,则实际只能有多少节点建多少副本
chgrp、-chmod、-chown # 跟Linux文件系统中的用法一样,修改文件所属权限
-getmerge # 合并下载
hdfs dfs
# 上传下载类指令
hdfs dfs -appendToFile <localsrc>... <dst> # 将所有给定的本地文件内容,全部追加到指定的hdfs文件末尾;若hdfs文件不存在则创建;若localstr是-,那么将会从终端stdin读取输入;
hdfs dfs -moveFromLocal <localsrc> ... <dst> # 从本地某个目录剪切到HDFS;
hdfs dfs -copyFromLocal <localsrc> ... <dst> # 从本地拷贝到HDFS
hdfs dfs -put <本地路径> <hdfs路径> # 本地文件拷贝到hdfs中,作用等同于copyFromLocal,但生产中更常用-put
hdfs dfs -get <hdfs路径> <本地路径> # hdfs文件下载到本地,生产中更习惯用get,而不是copyToLocal
hdfs dfs -copyToLocal <src> ... <localdst> # 从HDFS拷贝到本地
如果是想看单独一个命令的帮助信息,可以使用以下指令,如:
hdfs dfs -help mv