• 位图bitset及其应用——【C++实现】


    bitse

    本章代码gitee仓库:位图实现及其应用

    1.位图的概念

    当面对海量数据时,我们一般的数据结构无法存储那么多的值,要对这些数据进行分析,我们就可以采用位图来对这些数据进行标记(不是存储)。位图适用于海量数据,数据无重复的场景,通常用来判断这个数据是否存在

    给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。【腾讯】

    • 方法1:

      直接遍历,时间复杂度为O(N)

    • 方法2:

      先排序(O(N*logN)),再用二分(O(logN))

    以上这两种方法,都忽略了,这是40亿无符号整数,差不多需要16G的空间,这对于我们普通的电脑,是行不通的。

    那在这种情况下,就可以使用位图解决

    如图示例(小端平台):

    image-20230922154622090

    2. 位图的实现

    template<size_t N>
    class bitset
    {
    public:
    
        bitset()
        {
            _a.resize(N / 32 + 1, 0);	//至多多开一个int 空间
        }
    
    
        void set(size_t x)
        {
            size_t i = x / 32;
            size_t j = x % 32;
            //置1
            _a[i] |= (1 << j);
        }
    
        void reset(size_t x)
        {
            size_t i = x / 32;
            size_t j = x % 32;
    
            //置0
            _a[i] &= ~(1 << j);
        }
    
        bool test(size_t x)
        {
            size_t i = x / 32;
            size_t j = x % 32;
            return _a[i] & (1 << j);
        }
    
    private:
        vector<int> _a;
    };
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 这里采用vector来管理位集合的数据,int4byte,占32个比特位
    • 采用非类型模板参数,来表示要开多少个空间,N/32 + 1,这里防止开的空间不够,所有每次直接+1,至多多开一个整型空间

    3. 位图应用

    1. 快速查找某个数据是否在一个集合中
    2. 排序 + 去重
    3. 求两个集合的交集、并集等
    4. 操作系统中磁盘块标记

    相关题目:

    1. 给定100亿个整数,设计算法找到只出现一次的整数?

    这题我们可以采用2个位图解决,01表示出现一次,10表示2次及以上的数据

    template<size_t N>
    class twobitset
    {
    public:
        void set(size_t x)
        {
            if (!bt1.test(x) && !bt2.test(x))
            {
                //出现一次的数据
                //00 ->01
                bt2.set(x);
            }
            else if (!bt1.test(x) && bt2.test(x))
            {
                //2次及以上
                //01->10
                bt2.reset(x);
                bt1.set(x);
            }
        }
    
        bool is_once(size_t x)
        {
            return !bt1.test(x) && bt2.test(x);
        }
    
    private:
        bitset<N> bt1;
        bitset<N> bt2;
    };
    
    //模拟
    void isOnce()
    {
    	bitSet::twobitset<100> tbt;
    	int arr[] = { 1,2,3,3,44,6,6,4,4,6,3,1,9,6,8 ,3,22 };
    	for (auto e : arr)
    	{
    		tbt.set(e);
    	}
    
    	for (auto e : arr)
    	{
    		if (tbt.is_once(e))
    			cout << e << " ";
    	}cout << endl;
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    1. 给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?

    这题也是采用位图,先将数据映射到位图中,然后再比较这两个位图各位

    void IN()
    {
    	bitSet::bitset<32> bt1;
    	bitSet::bitset<32> bt2;
    
    	int arr1[] = { 10,52,20,23,9,22 ,22 ,22 };
    	for (auto e : arr1)
    	{
    		bt1.set(e);
    	}
    	int arr2[] = { 11,21,23,14,22,52 };
    	for (auto e : arr2)
    	{
    		bt2.set(e);
    	}
    
    	for (int i = 10; i < 55; i++)
    	{
    		if (bt1.test(i) && bt2.test(i))
    		{
    			cout << i << " ";
    		}
    	}cout << endl;
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    1. 1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数

    这题与第一个类似,我们也是采用两个位图,01只出现一次,10出现两次,11出现2次以上

    template<size_t N>
    class twobitset
    {
    public:
        void set(size_t x)
        {
            if (!bt1.test(x) && !bt2.test(x))
            {
                //00 ->01
                bt2.set(x);
            }
            else if (!bt1.test(x) && bt2.test(x))
            {
                //01->10
                bt2.reset(x);
                bt1.set(x);
            }
            else if (bt1.test(x) && !bt2.test(x))
            {
                //10->11
                bt1.set(x);
                bt2.set(x);
            }
        }
    
        bool is_once(size_t x)
        {
            return !bt1.test(x) && bt2.test(x);
        }
    
        //00
        //01
        //11
        bool lessTwo(size_t x)
        {
            if ((!bt1.test(x) && bt2.test(x)) || (bt1.test(x) && !bt2.test(x)))
            {
                bt1.reset(x);
                bt2.reset(x);
                return true;
            }
            return false;
        }
    
    private:
        bitset<N> bt1;
        bitset<N> bt2;
    };
    
    //模拟
    void LessTwo()
    {
    	bitSet::twobitset<10> bt;
    	int arr[] = { 1,1,2,2,3,3,5,5,5,9,7,7,7,8,8,8,8,1 };
    	for (auto e : arr)
    	{
    		bt.set(e);
    	}
    
    	for (auto e : arr)
    	{
    		if (bt.lessTwo(e))
    		{
    			cout << e << " ";
    		}
    	}cout << endl;
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59
    • 60
    • 61
    • 62
    • 63
    • 64
    • 65
    • 66
    • 67

    C++STL库里面bitset支持的接口:
    在这里插入图片描述
    有兴趣的可以查阅文档:bitset


    那么本次的分享就到这里,我们下期再见,如果还有下期的话。

  • 相关阅读:
    社交媒体&社交商务提升策略,看这一篇就够!
    ConfigurationProperties注解详解
    Docker12:Docker网络
    appliedzkp zkevm(10)中的Transactions Proof
    基于golang操作Docker
    Springboot毕设项目城市空气质量数据管理系统futcv(java+VUE+Mybatis+Maven+Mysql)
    网络爬虫简介
    【Python脚本进阶】2.5、编写自己的0day概念验证代码:栈的缓冲区溢出攻击、添加攻击关键元素、发送漏洞利用代码
    ssm框架—实现数据库中数据表的查询(扩展:layui实现单表的增删改查)
    JMeter测试工具介绍
  • 原文地址:https://blog.csdn.net/Dirty_artist/article/details/133175139