码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • HIVE基本查询操作(二)——第3关:Hive抽样查询


    第3关:Hive抽样查询


    任务描述

    本关任务:计算每个股票每天的总交易量。

    相关知识

    为了完成本关任务,你需要掌握:1.随机抽样 2.桶表抽样 3.数据块抽样

    随机抽样

    使用RAND()函数和LIMIT关键字来获取样例数据,使用DISTRIBUTE和SORT关键字来保证数据是随机分散到mapper和reducer的。ORDER BY RAND()语句可以获得同样的效果,但是性能没这么高。

    /**从table表里随机抽取5行数据*/
    //第一种:
    SELECT * FROM table DISTRIBUTE BY RAND() SORT BY RAND() LIMIT 2;
    //第二种(性能不太好):
    SELECT * FROM table ORDER BY RAND() LIMIT 2;
    
    • 1
    • 2
    • 3
    • 4
    • 5
    桶表抽样

    ① *Hive分桶*

    对于每一个表(table)或者分区, Hive 可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive 也是 针对某一列进行桶的组织。Hive 采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

    桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作。

    把表(或者分区)组织成桶(Bucket)有两个理由:

    获得更高的查询处理效率。桶为表加上了额外的结构,Hive 在处理有些查询时能利用这个结构。具体而言,连接两个在(包含连接列的)相同列上划分了桶的表,可以使用 Map 端连接 (M
    • 相关阅读:
      Docker部署clickhouse
      ES6学习笔记
      P-MVSNet ICCV-2019 学习笔记总结 译文 深度学习三维重建
      功能强大的国产Api管理工具
      前端性能优化方法与实战03 案例分析:移动端 M 站性能优化落地注意事项
      简单丝的tab切换栏(html/CSS)
      wangeditor富文本编辑器使用(详细)
      在 ASP.NET Core Web API 中处理 Patch 请求
      精简scrapy日志冗余占较大内存
      2000-2020上市公司全要素生产率LP方法含原始数据和Stata代码
    • 原文地址:https://blog.csdn.net/qq_51916951/article/details/127544681
    • 最新文章
    • 攻防演习之三天拿下官网站群
      数据安全治理学习——前期安全规划和安全管理体系建设
      企业安全 | 企业内一次钓鱼演练准备过程
      内网渗透测试 | Kerberos协议及其部分攻击手法
      0day的产生 | 不懂代码的"代码审计"
      安装scrcpy-client模块av模块异常,环境问题解决方案
      leetcode hot100【LeetCode 279. 完全平方数】java实现
      OpenWrt下安装Mosquitto
      AnatoMask论文汇总
      【AI日记】24.11.01 LangChain、openai api和github copilot
    • 热门文章
    • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
      奉劝各位学弟学妹们,该打造你的技术影响力了!
      五年了,我在 CSDN 的两个一百万。
      Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
      面试官都震惊,你这网络基础可以啊!
      你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
      心情不好的时候,用 Python 画棵樱花树送给自己吧
      通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
      13 万字 C 语言从入门到精通保姆级教程2021 年版
      10行代码集2000张美女图,Python爬虫120例,再上征途
    Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
    正则表达式工具 cron表达式工具 密码生成工具

    京公网安备 11010502049817号