码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 水塘抽样算法与等概率证明


    文章目录

    • 水塘抽样
      • 一、一般的抽样算法
      • 二、水塘抽样算法
        • 1、抽样过程
        • 2、等概率证明
        • 3、水塘抽样的优势
      • 三、算法练习

    水塘抽样

    一、一般的抽样算法

    对于数据流中的数据,我们将其存储到容器中,并使用随机数取出[0, n)的任意一个元素,完成等概率抽样。

    该算法的时间与空间复杂度均为O(n)。

    • 优点:简单易实现
    • 缺点:数据量过大时,将所有数据存入容器会有内存溢出问题。

    二、水塘抽样算法

    水塘抽样算法用于:在数据流中以O(n)的时间复杂度和O(1)的空间复杂度完成等概率抽样。

    1、抽样过程

    对于数据流中的第i个数,它有 1/i 的概率被替换为本轮随机抽样的结果:

    int ans = 0;
    for (int i = 1; i <= n; ++i)
    {
        if (rand() % i == 0) // 1/i的概率
            ans = array[i];
    }
    return ans;
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    2、等概率证明

    水塘抽样的算法实现也非常简单,现在给出其证明过程:

    假设第i个值被抽取,则[i+1, n]都没有被抽取,即:
    P ( 第 i 个被抽取 ) = 1 / i ∗ P ( 第 i + 1 个没被抽取 ) ∗ . . . ∗ P ( 第 n 个没被抽取 ) = 1 / i ∗ i / ( i + 1 ) ∗ ( i + 1 ) / ( i + 2 ) ∗ . . . ∗ ( n − 1 ) / n = 1 / n

    P(第i个被抽取)=1/i∗P(第i+1个没被抽取)∗...∗P(第n个没被抽取)=1/i∗i/(i+1)∗(i+1)/(i+2)∗...∗(n−1)/n=1/n" role="presentation">P(第i个被抽取)=1/i∗P(第i+1个没被抽取)∗...∗P(第n个没被抽取)=1/i∗i/(i+1)∗(i+1)/(i+2)∗...∗(n−1)/n=1/nP(第i个被抽取)=1/i∗P(第i+1个没被抽取)∗...∗P(第n个没被抽取)=1/i∗i/(i+1)∗(i+1)/(i+2)∗...∗(n−1)/n=1/n
    P(第i个被抽取)​=1/i∗P(第i+1个没被抽取)∗...∗P(第n个没被抽取)=1/i∗i/(i+1)∗(i+1)/(i+2)∗...∗(n−1)/n=1/n​​

    3、水塘抽样的优势

    1. 不需要预先知道数据总量为多少。
    2. 空间复杂度为O(1)。

    三、算法练习

    LeetCode 382. 链表随机节点

  • 相关阅读:
    《Operating Systems:Three Easy Pieces》 操作系统导论【二】 虚拟化内存
    Windows系统安装Redis
    Linux的进程管理
    图解LeetCode——1796. 字符串中第二大的数字(难度:简单)
    零基础10 天入门 Web3之第2天
    MYSQL数据库的故障排除与优化
    空气开关(空开)
    如何根据地址获取对应的社区
    You辉编程_kafka
    【云原生】设备入云之FlexManager实际项目操作流程
  • 原文地址:https://blog.csdn.net/Wyf_Fj/article/details/126754116
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号