码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【场景】大数据场景题 - Hash


    之前介绍过 Bitmap 和 Bloom Filter,今天介绍 Hash。
    【场景】大数据场景题 - Bitmap
    【场景】大数据场景题 - Bloom Filter

    适用范围:快速查找,将海量数据分成多个小文件,完成分布式处理。

    基本原理:是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来确定唯一的输入值。

    问题实例:

    (1)给定 a、b 两个文件,各存放 50 亿个 url,每个 url 各占 64 字节,内存限制是 4G,让你找出 a、b 文件共同的 url?

    方案一:Hash

    • 预估文件大小:50E × 64 B ≈ 5G × 64 ≈ 320G,超过内存 4G,不能一次性读取。
    • 因此考虑分治。
    • 遍历文件 a,对每个 url 求 hashcode 再取余,即 hash(url) % 1000,将文件 a 分为 1000 个小文件,记为 a0, a1, …, a999。每个文件大小 320G ÷ 1000 ≈ 300M。
    • b 通上,得到 b0, b1, …, b999。
    • 由于采用相同的 hash 函数,所以 a 和 b 中相同的 url 都在编号相同的文件里面。即只需要对比 a0 vs b0, a1 vs b1 ,…, a999 vs b999。编号不同的文件不可能存在相同的 url。
    • 将 ai 的所有 url 放进 set,遍历 bi,看是否在 set 中。如果在,就是共同的 url。

    方案二:Bloom Filter(注意会有一定的错误率)

    • 4G 内存大概可以表示 340 亿 bit。
    • 将其中一个文件中的 url 使用 Bloom filter 映射为这 340 亿 bit。
    • 然后挨个读取另外一个文件的 url,检查是否存在于 Bloom filter 中,如果是,那么该 url 应该是共同的 url。

    (2)海量日志数据,提取出某日访问百度次数最多的那个 IP。

    • IP 的数目有限的,最多 2^32 个,所以可以考虑使用 hash 将 ip 直接存入内存,然后进行统计。
    • 采用 hash 的方法,比如模 1000,把整个大文件映射为 1000 个小文件,再找出每个小文中出现频率最大的 IP 及相应的频率。即 WordCount。
    • 然后再在这 1000 个出现次数最多的 IP 中,找出那个频率最大的 IP,即为所求。
  • 相关阅读:
    基于Jsp的OA企业人事管理系统【论文、数据库设计、源码、开题报告】
    2023年天津中德应用技术大学专升本飞行器制造工程专业考试大纲
    JUC线程池——newSingleThreadExecutor源码解析&&JDK提供线程池ThreadPoolExecutor执行任务流程解析
    JavaSE---ArrayList与顺序表
    Facebook Messenger链接分享:如何创建链接并设置自动化内容
    聊聊常见的IO模型 BIO/NIO/AIO 、DIO、多路复用等IO模型
    时序预测 | MATLAB实现MLP多层感知机时间序列预测
    【Linux】(四)VS Code远程开发方式-实验室服务器使用VS Code远程开发
    在页面使用富文本编译器
    JDK8 ThreadPoolExecutor 线程池源码深度解析(附几种线程池的扩展方式)
  • 原文地址:https://blog.csdn.net/weixin_45545090/article/details/126843151
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号