基于Hive的搜狗搜索日志与结果Python可视化设计 - 码农知识堂

基于Hive的搜狗搜索日志与结果Python可视化设计
目录
一、实验描述 2
二、实验目的 2
三、实验环境 2
四、实验步骤 2
4.1 元数据库 Mysql 安装 2
2) 安装 mysql 所需依赖： 3
3) 解压 mysql 安装包： 3
4) 进入 aarch64 目录，对 rpm 包进行安装: 4
1. 命令 4
2. 查看启动状态 4
3. 登录 mysql（密码为上图红框标注部分） 4
4. 修改 mysql 密码为:MyNewPass4! 4
5. 查看 msyql 密码策略的相关信息: 4
6. 重新启动 mysql 服务 6
7. 登录 mysql: 6
8. 查看编码 6
  4.2 Hive 安装部署 7
  步骤 1：启动 Hadoop 集群 7
9. 在 master 启动 Hadoop 集群: 7
10. 解压并安装Hive 7
11. 登录 mysql 7
12. 创建hadoop 用户（密码：hadoop）: 7
13. 创建数据库连接 8
14. 进入hive 安装目录下的配置目录: 8
15. 创建hive 配置文件: 8
16. 添加如下内容： 8
17. 打开配置文件： 9
18. 将下面两行配置添加到环境变量中: 9
19. 使环境变量生效 9
20. 初始化Hive 元数据库 9
21. 启动 hive 客户端 9
  4.3 Hive SQL 数据分析 10
22. 查看数据内容 10
23. 查看总行数 10
24. 将时间字段拆分，添加年、月、日、小时字段 11
25. 查看拓展后的字段 11
26. 重命名数据文件 11
27. 上传数据 11
28. 进入hive 客户端命令行: 12
29. 使用数据库： 12
30. 查询分区表的结果： 14
31. 计总条数 15
  4.4 数据可视化 19
  4.4.1 基于 Python 的数据可视化步骤 1：安装 Anaconda 19
32. 使用 pip 安装 sasl(python 远程连接 hive)(若 pip 安装失败，可使用 conda install 23
  4.4.2 基于华为云 DLV 的数据可视化步骤 1：开启 DLV 数据可视化平台 24
  五、实验结果与分析 28
一、实验描述
利用 hive 命令行完成搜狗日志各项数据分析，使用 Python 进行数据可视化。主要步骤包括：安装部署 Hive、启动 Hadoop 集群、进入 Hive 命令行、创建数据库和数据表、加载或导入数据、用Hive SQL 完成需求、使用 Python 实现数据可视化。
二、实验目的
1.掌握安装Hive 的方法；
2.掌握Hive 创建数据库、导入数据的方法；
3.学会使用Hive SQL 分析数据；
4.学会数据可视化的方法。
三、实验环境
1.虚拟机数量：3；
2.系统版本：Centos 7.5；
3.Hadoop 版本：Apache Hadoop 2.7.3；
4.MySQL 版本：MySQL 5.7.30；
5.Hive 版本：Apache Hive 2.1.1。
四、实验步骤
实验开始前，请确保 Hadoop 集群已经安装成功(可参考实验三Hadoop 集群安装部署部分)。本文转载自http://www.biyezuopin.vip/onews.asp?id=14908接下来的步骤主要是：元数据库 Mysql 安装、Hive 安装部署、Hive SQL 数据分析、数据可视化。
4.1元数据库 Mysql 安装
本实验安装 MySQL 是为了给 Hive 提供元数据存储库，主要包括：yum 安装 MySQL、修改 MySQL root 密码、添加 zkpk 用户并赋予远程访问权限、修改数据库默认编码。
```
from matplotlib import lines
from pyhive import hive
import matplotlib.pyplot as plt
from matplotlib.pyplot import MultipleLocator
plt.rcParams['font.sans-serif'] = ['SimHei'] # 步骤一（替换 sans-serif 字体）
plt.rcParams['axes.unicode_minus'] = False # 步骤二（解决坐标轴负数的负号显示问题）
conn = hive.Connection(host='119.3.212.133',port=10000,auth='NOSASL',username='root')
cursor = conn.cursor()
cursor.execute('select rank,count(*) as cnt from sogou_100w.sogou_ext_20111230 group by rank order by rank limit 30')
rank = []
clicks = []
for result in cursor.fetchall():
    rank.append(result[0])
    clicks.append(result[1])
cursor.close()
conn.close()
plt.plot(rank,clicks,marker='D')
plt.title('rank与点击次数折线图-2018211582')
plt.xlabel("rank")
plt.ylabel("点击次数")
plt.legend(['rank-点击次数'],loc=3)
x_major_locator=MultipleLocator(1)
#把x轴的刻度间隔设置为1，并存在变量里
ax=plt.gca()
ax.xaxis.set_major_locator(x_major_locator)
for i,j in zip(rank,clicks):
    plt.text(i,j+2,"%d"%j,horizontalalignment='center')
plt.show()
```
相关阅读:
[第五空间 2021]web 复现wp
【数据结构与算法】三种简单排序算法，包括冒泡排序、选择排序、插入排序算法
 量脚——是高端定制鞋的重要环节
 总结——》【Redis】
MyBatis-Plus快速开发
 获取随机维基页面的Python模块实现
 git学习笔记
 Python之zipfile模块
 大数据毕业设计选题推荐-超级英雄运营数据监控平台-Hadoop-Spark-Hive
【FreeRTOS】04 FreeRTOS 创建任务相关API函数
原文地址：https://blog.csdn.net/sheziqiong/article/details/127040108