• 基于Hive的搜狗搜索日志与结果Python可视化设计


    目录
    一、实验描述 2
    二、实验目的 2
    三、实验环境 2
    四、实验步骤 2
    4.1 元数据库 Mysql 安装 2
    2) 安装 mysql 所需依赖: 3
    3) 解压 mysql 安装包: 3
    4) 进入 aarch64 目录,对 rpm 包进行安装: 4

    1. 命令 4
    2. 查看启动状态 4
    3. 登录 mysql(密码为上图红框标注部分) 4
    4. 修改 mysql 密码为:MyNewPass4! 4
    5. 查看 msyql 密码策略的相关信息: 4
    6. 重新启动 mysql 服务 6
    7. 登录 mysql: 6
    8. 查看编码 6
      4.2 Hive 安装部署 7
      步骤 1:启动 Hadoop 集群 7
    9. 在 master 启动 Hadoop 集群: 7
    10. 解压并安装Hive 7
    11. 登录 mysql 7
    12. 创建hadoop 用户(密码:hadoop): 7
    13. 创建数据库连接 8
    14. 进入hive 安装目录下的配置目录: 8
    15. 创建hive 配置文件: 8
    16. 添加如下内容: 8
    17. 打开配置文件: 9
    18. 将下面两行配置添加到环境变量中: 9
    19. 使环境变量生效 9
    20. 初始化Hive 元数据库 9
    21. 启动 hive 客户端 9
      4.3 Hive SQL 数据分析 10
    22. 查看数据内容 10
    23. 查看总行数 10
    24. 将时间字段拆分,添加年、月、日、小时字段 11
    25. 查看拓展后的字段 11
    26. 重命名数据文件 11
    27. 上传数据 11
    28. 进入hive 客户端命令行: 12
    29. 使用数据库: 12
    30. 查询分区表的结果: 14
    31. 计总条数 15
      4.4 数据可视化 19
      4.4.1 基于 Python 的数据可视化步骤 1:安装 Anaconda 19
    32. 使用 pip 安装 sasl(python 远程连接 hive)(若 pip 安装失败,可使用 conda install 23
      4.4.2 基于华为云 DLV 的数据可视化步骤 1:开启 DLV 数据可视化平台 24
      五、实验结果与分析 28

    一、实验描述
    利用 hive 命令行完成搜狗日志各项数据分析,使用 Python 进行数据可视化。主要步骤包括:安装部署 Hive、启动 Hadoop 集群、进入 Hive 命令行、创建数据库和数据表、加载或导入数据、用Hive SQL 完成需求、使用 Python 实现数据可视化。
    二、实验目的
    1.掌握安装Hive 的方法;
    2.掌握Hive 创建数据库、导入数据的方法;
    3.学会使用Hive SQL 分析数据;
    4.学会数据可视化的方法。
    三、实验环境
    1.虚拟机数量:3;
    2.系统版本:Centos 7.5;
    3.Hadoop 版本:Apache Hadoop 2.7.3;
    4.MySQL 版本:MySQL 5.7.30;
    5.Hive 版本:Apache Hive 2.1.1。
    四、实验步骤
    实验开始前,请确保 Hadoop 集群已经安装成功(可参考实验三Hadoop 集群安装部署部分)。本文转载自http://www.biyezuopin.vip/onews.asp?id=14908接下来的步骤主要是:元数据库 Mysql 安装、Hive 安装部署、Hive SQL 数据分析、数据可视化。
    4.1元数据库 Mysql 安装
    本实验安装 MySQL 是为了给 Hive 提供元数据存储库,主要包括:yum 安装 MySQL、修改 MySQL root 密码、添加 zkpk 用户并赋予远程访问权限、修改数据库默认编码。

    from matplotlib import lines
    from pyhive import hive
    import matplotlib.pyplot as plt
    from matplotlib.pyplot import MultipleLocator
    plt.rcParams['font.sans-serif'] = ['SimHei'] # 步骤一(替换 sans-serif 字体)
    plt.rcParams['axes.unicode_minus'] = False # 步骤二(解决坐标轴负数的负号显示问题)
    conn = hive.Connection(host='119.3.212.133',port=10000,auth='NOSASL',username='root')
    cursor = conn.cursor()
    cursor.execute('select rank,count(*) as cnt from sogou_100w.sogou_ext_20111230 group by rank order by rank limit 30')
    rank = []
    clicks = []
    for result in cursor.fetchall():
        rank.append(result[0])
        clicks.append(result[1])
    cursor.close()
    conn.close()
    plt.plot(rank,clicks,marker='D')
    plt.title('rank与点击次数折线图-2018211582')
    plt.xlabel("rank")
    plt.ylabel("点击次数")
    plt.legend(['rank-点击次数'],loc=3)
    x_major_locator=MultipleLocator(1)
    #把x轴的刻度间隔设置为1,并存在变量里
    ax=plt.gca()
    ax.xaxis.set_major_locator(x_major_locator)
    for i,j in zip(rank,clicks):
        plt.text(i,j+2,"%d"%j,horizontalalignment='center')
    plt.show()
    

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 相关阅读:
    [第五空间 2021]web 复现wp
    【数据结构与算法】三种简单排序算法,包括冒泡排序、选择排序、插入排序算法
    量脚——是高端定制鞋的重要环节
    总结——》【Redis】
    MyBatis-Plus快速开发
    获取随机维基页面的Python模块实现
    git学习笔记
    Python之zipfile模块
    大数据毕业设计选题推荐-超级英雄运营数据监控平台-Hadoop-Spark-Hive
    【FreeRTOS】04 FreeRTOS 创建任务相关API函数
  • 原文地址:https://blog.csdn.net/sheziqiong/article/details/127040108