注意:需要提前搭建好hive,并对hive进行配置。并将spark配置成为spark on yarn模式。
cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf
提前创建好启动日志存放路径
mkdir $HIVE_HOME/logStart
nohup /usr/local/lib/apache-hive-3.1.3-bin/bin/hive --service metastore > logStart/hivemetastore.log 2>&1 &
cd $SPARK_HOME/sbin
start-thriftserver.sh
注意:其实还是hive的thirftserver服务,同时还需要启动spark集群
连接thirftserver服务后,就可以使用hive的元数据(hive在hdfs中的数据库和表),并且将spark作为分析引擎,来执行hivesql了。
那我自己集群的数据做例子:
show databases ;
use clickhouse;