• C++ 哈希表及unordered_set + unordered_map容器


    目录

    一.unordered_set和unordered_map的使用

    二.哈希结构

    1.概念

    2.哈希函数

    (1) 哈希函数设计原则

    (2)常见哈希函数

    3.哈希冲突

    4.哈希冲突解决

    (1)闭散列

    (2)开散列

    (3)开散列与闭散列比较

    三.unordered_set及unordered_map模拟实现

    1.哈希表改造

    (1)模板 

    (2)迭代器

    (3)修改完善函数

    哈希表改造后全部代码:

    2.unordered_set

    3.unordered_map


            前言:unordered_set和unordered_map是C++11中新增加的两个关联式容器,使用方式与set和map基本相同,但是unordered_set和unordered_map的底层是哈希表,而set和map的底层是红黑树。并且unordered_set不能排序;unordered_set和unordered_map是单向迭代器;效率要高一下,时间复杂度为O(1)。

    一.unordered_set和unordered_map的使用

            这里unordered_set和unordered_map的使用与set和map基本相同,因此会了set和map,这两个也就会了。

    map+set:C++ 关联式容器map+set_糖果雨滴a的博客-CSDN博客

    二.哈希结构

    1.概念

            在之前的顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为O(N),平衡树中为树的高度,即O(logN),搜索的效率取决于搜索过程中元素的比较次数。

           概念:可以不经过任何比较,一次直接从表中得到要搜索的元素。可以使元素的存储位置与它的关键码之间能够建立一一映射的关系,在查找时可以很快找到该元素。

    (1)插入元素 

            根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放。

    (2)搜索元素

            对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较,若关键码相等,则搜索成功。

            该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(散列表)。

            用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快。

    2.哈希函数

    (1) 哈希函数设计原则

    ① 哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有m个地址时,其值域必须在0到m-1之间

    ② 哈希函数计算出来的地址能均匀分布在整个空间中。

    ③ 哈希函数应该比较简单。

    (2)常见哈希函数

    ① 直接定址法(常用)

            取关键字的某个线性函数为散列地址:Hash(Key) = A * Key + B

            优点:简单、均匀

            缺点:需要事先知道关键字的分布情况

            使用场景:适合查找比较小且连续的情况

    ② 除留余数法(常用)

            设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:Hash(key) = key% p(p<=m),将关键码转换成哈希地址。

    ③ 平方取中法

            假设关键字为1234,对它平方就是1522756,抽取中间的3位227作为哈希地址; 再比如关键字为4321,对它平方就是18671041,抽取中间的3位671(或710)作为哈希地址。

            平方取中法比较适合:不知道关键字的分布,而位数又不是很大的情况。

    ④ 折叠法

            折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些),然后将这几部分叠加求和,并按散列表表长,取后几位作为散列地址。

            折叠法适合事先不需要知道关键字的分布,适合关键字位数比较多的情况

    ⑤ 随机数法

            选择一个随机函数,取关键字的随机函数值为它的哈希地址,即Hash(key) = random(key),其中random为随机数函数。

            随机数法通常应用于关键字长度不等时采用此法。

    ⑥ 数学分析法

            设有n个d位数,每一位可能有r种不同的符号,这r种不同的符号在各位上出现的频率不一定相同,可能在某些位上分布比较均匀,每种符号出现的机会均等,在某些位上分布不均匀只有某几种符号经常出现。可根据散列表的大小,选择其中各种符号分布均匀的若干位作为散列地址。

            数字分析法通常适合处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布较均匀的情况。

    3.哈希冲突

            对于两个数据元素的关键字 ki 和 kj (i != j),有 ki != kj ,但有:Hash(ki) == Hash(kj),即:不同关键字通过相同哈希计数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。

            把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。

            引起哈希冲突的一个原因可能是:哈希函数设计不够合理。

    4.哈希冲突解决

            解决哈希冲突的两种常见方法是:闭散列开散列

    (1)闭散列

            闭散列也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存到冲突位置中的“下一个”空位置中去。

            那么如何去寻找下一个空位置呢?

    ① 线性探测

            从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。

    a. 插入

            通过哈希函数获取待插入元素在哈希表中的位置。

            如果该位置中没有元素则直接插入新元素,如果该位置中有元素发生哈希冲突,使用线性探测找到下一个空位置,插入新元素。

           

    既然有插入,那么就有扩容,那哈希表什么时候进行扩容呢?如何扩容呢?

            扩容就由负载因子(载荷因子)来决定,负载因子:表中的元素 / 散列表的长度。

            负载因子越大,表明表中的元素越低,产生冲突的可能性就越大;反之,负载因子越小,表明表中的元素越少,产生冲突的可能性就越小。

            对于开放定址法,负载因子应控制在0.7-0.8以下。超过 0.8.会导致CPU缓存不命中。Java中限制了负载因子为0.75.

    插入函数的具体实现:

            先通过调用查找函数,判断当前key是否存在,若存在就不再插入;不存在就要先判断负载因子是否到0.7及以上,到了就扩容,在扩容以后要重新映射(通过创建一个有扩容后空间的新表,然后通过遍历旧表,将其插入新表中,最后交换新旧表,这样原本的旧表就变成了新表)。

            扩容判断结束后,要准备找位置插入,首先因为不清楚要插入的类型,所以这里使用了仿函数,包括了int类型和string类型,并且为了在调用Insert时不需要传仿函数的参,就给仿函数写一个缺省,并且要把string类型的仿函数实现为特化版本。

            然后从该数应该映射的位置开始查找可以插入的位置(即state不为EXITS就可以插入),找到位置之后,插入,并更新插入的数据个数n。

    b. 删除

            采用闭散列处理哈希冲突时,不能随便物理的删除哈希表中已有的元素,若直接删除元素会影响其它元素的搜索。因此线性探测采用标记的伪删除法来删除一个元素。

    删除函数的具体实现:

            通过调用Find函数,查找是否存在,若存在就将该位置state标记为DELETE。 

    c.查找

    查找函数的具体实现:

            从要找着的数据本应映射的位置开始查找,如果没到标记为EMPTY的数据就一直去查找,直到找到了标记不为DELETE(即为EXITS)的数据并且key值相同,就说明找到了该值;若找了key值相同却为DELETE的,说明之前被删除了,而如果一直走到了EMPTY都没有找到,就一定是没有该数据了。

    实现:

    1. #pragma once
    2. namespace CloseHash
    3. {
    4. enum State
    5. {
    6. EMPTY,
    7. EXITS,
    8. DELETE
    9. };
    10. template <class K, class V>
    11. struct HashData
    12. {
    13. pair _kv;
    14. State _state = EMPTY;
    15. };
    16. template <class K>
    17. struct DefaultHash
    18. {
    19. size_t operator()(const K& key)
    20. {
    21. return (size_t)key;
    22. }
    23. };
    24. template<>
    25. struct DefaultHash
    26. {
    27. size_t operator()(const string& key)
    28. {
    29. // BKDR
    30. size_t hash = 0;
    31. for (auto ch : key)
    32. {
    33. hash = hash * 131 + ch;
    34. }
    35. return hash;
    36. }
    37. };
    38. template <class K, class V, class HashFunc = DefaultHash>
    39. class HashTable
    40. {
    41. typedef HashData Data;
    42. public:
    43. bool Insert(const pair& kv)
    44. {
    45. if (Find(kv.first))
    46. {
    47. return false;
    48. }
    49. // 负载因子到0.7及以上,就扩容
    50. if (_tables.size() == 0 || _n * 10 / _tables.size() >= 7)
    51. {
    52. size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
    53. // 扩容以后,需要重新映射
    54. HashTable newHT;
    55. newHT._tables.resize(newSize);
    56. // 遍历旧表,插入newHT
    57. for (auto& e : _tables)
    58. {
    59. if (e._state == EXITS)
    60. {
    61. newHT.Insert(e._kv);
    62. }
    63. }
    64. newHT._tables.swap(_tables);
    65. }
    66. HashFunc hf;
    67. size_t starti = hf(kv.first);
    68. starti %= _tables.size();
    69. size_t hashi = starti;
    70. size_t i = 1;
    71. // 线性探测/二次探测
    72. while (_tables[hashi]._state == EXITS)
    73. {
    74. hashi == starti + i;
    75. ++i;
    76. hashi %= _tables.size();
    77. }
    78. _tables[hashi]._kv = kv;
    79. _tables[hashi]._state = EXITS;
    80. _n++;
    81. return true;
    82. }
    83. Data* Find(const K& key)
    84. {
    85. if (_tables.size() == 0)
    86. {
    87. return nullptr;
    88. }
    89. HashFunc hf;
    90. size_t starti = hf(key);
    91. starti %= _tables.size();
    92. size_t hashi = starti;
    93. size_t i = 1;
    94. while (_tables[hashi]._state != EMPTY)
    95. {
    96. if (_tables[hashi]._state != DELETE && _tables[hashi]._kv.first == key)
    97. {
    98. return &_tables[hashi];
    99. }
    100. hashi = starti + i;
    101. ++i;
    102. hashi %= _tables.size();
    103. }
    104. return nullptr;
    105. }
    106. bool Erase(const K& key)
    107. {
    108. Data* ret = Find(key);
    109. if (ret)
    110. {
    111. ret->_state = DELETE;
    112. --_n;
    113. return true;
    114. }
    115. else
    116. {
    117. return false;
    118. }
    119. }
    120. private:
    121. vector _tables;
    122. size_t _n = 0; // 存储关键字的个数
    123. };
    124. }

    线性探测优点:实现简单

    线性探测缺点:一旦发生哈希冲突,所有的冲突连在一起,容易产生数据“堆积”,即:不同关键码占据了可利用的空位置,使得寻找某关键码的位置需要许多次比较,导致搜索效率降低。

    ② 二次探测

            因为线性探测的缺陷是产生冲突的数据会堆积在一块,就导致找空位置的方式就是挨着往后逐个去找,因此二次探测为了避免该问题,就对其进行了优化:找下一个位置的方法变为Hi = (H0 + i^2) % m,i为1,2,3......。即不是依次往后走了,而是变成了i^2,并且这个i会依次增大。

    二次探测实现:

            二次探测的实现与线性探测基本相同,只是在插入上有一些区别,这里就不实现了。

           

            虽然二次探测是线性探测的优化,不过,二次探测在本质上并没有解决闭散列去占别人位置的问题,因此一样容易造成哈希冲突。二次探测只不过是比线性探测能少一些哈希冲突。

    (2)开散列

            开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。

     

    因此,开散列中每个桶中放的都是在闭散列中会发生哈希冲突的元素。

    a.插入

    插入函数的具体实现:

            先通过调用查找函数,判断当前key是否存在,若存在就不再插入;不存在就要先判断负载因子是否到1及以上,到了就扩容,在扩容以后要重新映射(通过创建一个有扩容后空间的新表,然后通过遍历旧表,将旧表中桶的元素插入新表中,这样原本的旧表就不需要清理【已经全部转移到了新表中】,最后交换新旧表,旧表就变成了新表)。

            扩容判断结束后,要准备找位置插入,首先因为不清楚要插入的类型,所以这里使用了仿函数,包括了int类型和string类型,并且为了在调用Insert时不需要传仿函数的参,就给仿函数写一个缺省,并且要把string类型的仿函数实现为特化版本。

            然后从先得到该数应该映射的位置并进行头插,并更新插入的数据个数n。

    b.删除

    删除函数的具体实现:

            因为是在一个数组上的每个元素下有一个链表,因此要想删除一个元素,我们可以进行头删(单链表头删效率高)。首先定义一个prev,然后找到对应的key时,如果这个元素是链表头,就要改头的下一个位置的元素变成新的链表头;如果不是,就将prev的next直接链接到当前key的下一个元素,最后delete掉即可。(这里始终保证prev是cur的上一个元素)。

    c.查找

    查找函数的具体实现:

             这个就是找到对应的桶,然后进行查找即可(单链表查找)。

    开散列实现:

    1. #pragma once
    2. namespace Bucket
    3. {
    4. template <class K, class V>
    5. struct HashNode
    6. {
    7. pair _kv;
    8. HashNode* _next;
    9. HashNode(const pair& kv)
    10. : _kv(kv)
    11. , _next(nullptr)
    12. {}
    13. };
    14. template <class K, class V, class HashFunc = DefaultHash>
    15. class HashTable
    16. {
    17. typedef HashNode Node;
    18. public:
    19. ~HashTable()
    20. {
    21. for (size_t i = 0; i < _tables.size(); ++i)
    22. {
    23. Node* cur = _tables[i];
    24. while (cur)
    25. {
    26. Node* next = cur->_next;
    27. delete cur;
    28. cur = next;
    29. }
    30. _tables[i] = nullptr;
    31. }
    32. }
    33. bool Insert(const pair& kv)
    34. {
    35. if (Find(kv.first))
    36. {
    37. return false;
    38. }
    39. HashFunc hf;
    40. // 负载因子 == 1 扩容
    41. if (_tables.size() == _n)
    42. {
    43. size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
    44. vector newTable;
    45. newTable.resize(newSize, nullptr);
    46. for (size_t i = 0; i < _tables.size(); ++i)
    47. {
    48. Node* cur = _tables[i];
    49. while (cur)
    50. {
    51. Node* next = cur->_next;
    52. size_t hashi = hf(cur->_kv.first) % newSize;
    53. cur->_next = newTable[hashi];
    54. newTable[hashi] = cur;
    55. cur = next;
    56. }
    57. _tables[i] = nullptr;
    58. }
    59. newTable.swap(_tables);
    60. }
    61. size_t hashi = hf(kv.first);
    62. hashi %= _tables.size();
    63. // 头插到对应的桶
    64. Node* newnode = new Node(kv);
    65. newnode->_next = _tables[hashi];
    66. _tables[hashi] = newnode;
    67. ++_n;
    68. return true;
    69. }
    70. Node* Find(const K& key)
    71. {
    72. if (_tables.size() == 0)
    73. {
    74. return nullptr;
    75. }
    76. HashFunc hf;
    77. size_t hashi = hf(key);
    78. hashi %= _tables.size();
    79. Node* cur = _tables[hashi];
    80. while (cur)
    81. {
    82. if (cur->_kv.first == key)
    83. {
    84. return cur;
    85. }
    86. cur = cur->_next;
    87. }
    88. return nullptr;
    89. }
    90. bool Erase(const K& key)
    91. {
    92. if (_tables.size() == 0)
    93. {
    94. return false;
    95. }
    96. HashFunc hf;
    97. size_t hashi = hf(key);
    98. hashi %= _tables.size();
    99. Node* prev = nullptr;
    100. Node* cur = _tables[hashi];
    101. while (cur)
    102. {
    103. if (cur->_kv.first == key)
    104. {
    105. if (prev == nullptr)
    106. {
    107. _tables[hashi] = cur->_next;
    108. }
    109. else
    110. {
    111. prev->_next = cur->_next;
    112. }
    113. delete cur;
    114. return true;
    115. }
    116. prev = cur;
    117. cur = cur->_next;
    118. }
    119. return false;
    120. }
    121. private:
    122. vector _tables; // 指针数组
    123. size_t _n = 0;
    124. };
    125. }

    (3)开散列与闭散列比较

            开散列(链地址法)处理溢出,需要增设链接指针,似乎增加了存储开销。事实上,由于闭散列(开地址法)必须保持大量的空闲空间以确保搜索效率,导致闭散列表项所占空间比指针大的多。因此使用开散列(链地址法)要比闭散列(开地址法)节省存储空间。

    三.unordered_set及unordered_map模拟实现

    1.哈希表改造

            为了用哈希表去封装unordered_set和unordered_map(这里用的是开散列封装),就要去改造哈希表,然后在unordered_set和unordered_map中调用哈希表函数即可。而如何改造,模板和迭代器是关键。

            

            这里类似于之前模拟实现的set和map,但是哈希表要再稍微麻烦一些。

    set+map->C++ 关联式容器map+set_糖果雨滴a的博客-CSDN博客

    (1)模板 

            这里模板的K就是key,但是因为要封装unordered_set和unordered_map,所以我们不确定下一个参数是不是V,因此这个T是决定存什么的,如果是unordered_set就是K,如果是unordered_map就是V。

            KeyOfT仿函数就是用在封装时,到底是unordered_set返回key,还是unordered_map返回kv.first,这里需要作为区分。

            HashFunc仿函数就是因为我们不知道存的数据是什么,所以对存的数据的不同,要进行不同的处理。

    template <class K, class T, class KeyOfT, class HashFunc>

    (2)迭代器

            迭代器需要我们自己封装实现,这里的成员变量分别是 结点,和指向哈希表的指针

            然后实现*,->,!=,==,++的操作符重载(这里不需要实现 --的操作符重载,因为哈希表的是单向迭代器)。

            这些操作符重载的实现比较简单,只有++需要去进行查找。

    1. template <class T>
    2. struct HashNode
    3. {
    4. T _data;
    5. HashNode* _next;
    6. HashNode(const T& data)
    7. : _data(data)
    8. , _next(nullptr)
    9. {}
    10. };
    11. template <class K, class T, class KeyOfT, class HashFunc>
    12. class HashTable;
    13. template<class K, class T, class KeyOfT, class HashFunc>
    14. class __HTIterator
    15. {
    16. typedef HashNode Node;
    17. typedef __HTIterator Self;
    18. public:
    19. Node* _node;
    20. HashTable* _pht;
    21. __HTIterator()
    22. {}
    23. __HTIterator(Node* node, HashTable* pht)
    24. : _node(node)
    25. , _pht(pht)
    26. {}
    27. Self& operator++()
    28. {
    29. if (_node->_next)
    30. {
    31. _node = _node->_next;
    32. }
    33. else
    34. {
    35. KeyOfT kot;
    36. HashFunc hf;
    37. size_t hashi = hf(kot(_node->_data)) % _pht->_tables.size();
    38. ++hashi;
    39. // 找下一个不为空的桶
    40. for (; hashi < _pht->_tables.size(); ++hashi)
    41. {
    42. if (_pht->_tables[hashi])
    43. {
    44. _node = _pht->_tables[hashi];
    45. break;
    46. }
    47. }
    48. // 没有找到不为空的桶,用nullptr去做end标识
    49. if (hashi == _pht->_tables.size())
    50. {
    51. _node = nullptr;
    52. }
    53. }
    54. return *this;
    55. }
    56. T& operator*()
    57. {
    58. return _node->_data;
    59. }
    60. T* operator->()
    61. {
    62. return &_node->_data;
    63. }
    64. bool operator!=(const Self& s) const
    65. {
    66. return _node != s._node;
    67. }
    68. bool operator==(const Self& s) const
    69. {
    70. return _node == s._node;
    71. }
    72. };

    (3)修改完善函数

            接下来就要把之前所实现的函数进行修改完善,并且因为多了迭代器,所以也要实现迭代器的接口函数。

            迭代器的begin和end实现比较简单,注意这里的返回值,返回值是一个利用当前结点和当前指向哈希表的指针构造的iterator。

            为了unordered_map的[]操作符重载的实现,我们需要对Insert和的Find返回值进行修改,Insert函数的返回值需要是一个pair类型的(其中一个是iterator类型,另一个是bool类型)。

            iterator类型就是为了调用[]后可以得到当前的迭代器,而bool类型是为了判断是否插入成功的。

            查找函数也需要修改一下返回值,它的返回值要改成迭代器,找到了就要返回这个函数的迭代器,这样在插入函数中才能得到其对应的迭代器。

            

            这里还有一个优化,就是让扩容后的值是质数。这个在C++的STL源码中是进行了这个修改的,但是java中并没有,所以也不是很确定这个优化到底如何。

    优化如下:

    1. size_t GetNextPrime(size_t prime)
    2. {
    3. const int PRIMECOUNT = 28;
    4. static const size_t primeList[PRIMECOUNT] =
    5. {
    6. 53ul, 97ul, 193ul, 389ul, 769ul,
    7. 1543ul, 3079ul, 6151ul, 12289ul, 24593ul,
    8. 49157ul, 98317ul, 196613ul, 393241ul, 786433ul,
    9. 1572869ul, 3145739ul, 6291469ul, 12582917ul, 25165843ul,
    10. 50331653ul, 100663319ul, 201326611ul, 402653189ul, 805306457ul,
    11. 1610612741ul, 3221225473ul, 4294967291ul
    12. };
    13. // 获取比prime大那一个素数
    14. size_t i = 0;
    15. for (; i < PRIMECOUNT; ++i)
    16. {
    17. if (primeList[i] > prime)
    18. return primeList[i];
    19. }
    20. return primeList[i];
    21. }
    22. pairbool> Insert(const T& data)
    23. {
    24. HashFunc hf;
    25. KeyOfT kot;
    26. iterator pos = Find(kot(data));
    27. if (pos != end())
    28. {
    29. return make_pair(pos, false);
    30. }
    31. // 负载因子 == 1 扩容
    32. if (_tables.size() == _n)
    33. {
    34. //size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
    35. size_t newSize = GetNextPrime(_tables.size());
    36. if (newSize != _tables.size())
    37. {
    38. vector newTable;
    39. newTable.resize(newSize, nullptr);
    40. for (size_t i = 0; i < _tables.size(); ++i)
    41. {
    42. Node* cur = _tables[i];
    43. while (cur)
    44. {
    45. Node* next = cur->_next;
    46. size_t hashi = hf(kot(cur->_data)) % newSize;
    47. cur->_next = newTable[hashi];
    48. newTable[hashi] = cur;
    49. cur = next;
    50. }
    51. _tables[i] = nullptr;
    52. }
    53. newTable.swap(_tables);
    54. }
    55. }
    56. size_t hashi = hf(kot(data));
    57. hashi %= _tables.size();
    58. // 头插到对应的桶
    59. Node* newnode = new Node(data);
    60. newnode->_next = _tables[hashi];
    61. _tables[hashi] = newnode;
    62. ++_n;
    63. return make_pair(iterator(newnode, this), true);
    64. }

    哈希表改造后全部代码:

    1. #pragma once
    2. template <class K>
    3. struct DefaultHash
    4. {
    5. size_t operator()(const K& key)
    6. {
    7. return (size_t)key;
    8. }
    9. };
    10. template<>
    11. struct DefaultHash
    12. {
    13. size_t operator()(const string& key)
    14. {
    15. // BKDR
    16. size_t hash = 0;
    17. for (auto ch : key)
    18. {
    19. hash = hash * 131 + ch;
    20. }
    21. return hash;
    22. }
    23. };
    24. namespace Bucket
    25. {
    26. template <class T>
    27. struct HashNode
    28. {
    29. T _data;
    30. HashNode* _next;
    31. HashNode(const T& data)
    32. : _data(data)
    33. , _next(nullptr)
    34. {}
    35. };
    36. template <class K, class T, class KeyOfT, class HashFunc>
    37. class HashTable;
    38. template<class K, class T, class KeyOfT, class HashFunc>
    39. class __HTIterator
    40. {
    41. typedef HashNode Node;
    42. typedef __HTIterator Self;
    43. public:
    44. Node* _node;
    45. HashTable* _pht;
    46. __HTIterator()
    47. {}
    48. __HTIterator(Node* node, HashTable* pht)
    49. : _node(node)
    50. , _pht(pht)
    51. {}
    52. Self& operator++()
    53. {
    54. if (_node->_next)
    55. {
    56. _node = _node->_next;
    57. }
    58. else
    59. {
    60. KeyOfT kot;
    61. HashFunc hf;
    62. size_t hashi = hf(kot(_node->_data)) % _pht->_tables.size();
    63. ++hashi;
    64. // 找下一个不为空的桶
    65. for (; hashi < _pht->_tables.size(); ++hashi)
    66. {
    67. if (_pht->_tables[hashi])
    68. {
    69. _node = _pht->_tables[hashi];
    70. break;
    71. }
    72. }
    73. // 没有找到不为空的桶,用nullptr去做end标识
    74. if (hashi == _pht->_tables.size())
    75. {
    76. _node = nullptr;
    77. }
    78. }
    79. return *this;
    80. }
    81. T& operator*()
    82. {
    83. return _node->_data;
    84. }
    85. T* operator->()
    86. {
    87. return &_node->_data;
    88. }
    89. bool operator!=(const Self& s) const
    90. {
    91. return _node != s._node;
    92. }
    93. bool operator==(const Self& s) const
    94. {
    95. return _node == s._node;
    96. }
    97. };
    98. // unordered_map ->HashTable, MapKeyOfT> _ht;
    99. // unordered_set ->HashTable _ht;
    100. template <class K, class T, class KeyOfT, class HashFunc>
    101. class HashTable
    102. {
    103. template <class K, class T, class KeyOfT, class HashFunc>
    104. friend class __HTIterator;
    105. typedef HashNode Node;
    106. public:
    107. typedef __HTIterator iterator;
    108. iterator begin()
    109. {
    110. for (size_t i = 0; i < _tables.size(); ++i)
    111. {
    112. Node* cur = _tables[i];
    113. if (cur)
    114. {
    115. return iterator(cur, this);
    116. }
    117. }
    118. return end();
    119. }
    120. iterator end()
    121. {
    122. return iterator(nullptr, this);
    123. }
    124. ~HashTable()
    125. {
    126. for (size_t i = 0; i < _tables.size(); ++i)
    127. {
    128. Node* cur = _tables[i];
    129. while (cur)
    130. {
    131. Node* next = cur->_next;
    132. delete cur;
    133. cur = next;
    134. }
    135. _tables[i] = nullptr;
    136. }
    137. }
    138. size_t GetNextPrime(size_t prime)
    139. {
    140. const int PRIMECOUNT = 28;
    141. static const size_t primeList[PRIMECOUNT] =
    142. {
    143. 53ul, 97ul, 193ul, 389ul, 769ul,
    144. 1543ul, 3079ul, 6151ul, 12289ul, 24593ul,
    145. 49157ul, 98317ul, 196613ul, 393241ul, 786433ul,
    146. 1572869ul, 3145739ul, 6291469ul, 12582917ul, 25165843ul,
    147. 50331653ul, 100663319ul, 201326611ul, 402653189ul, 805306457ul,
    148. 1610612741ul, 3221225473ul, 4294967291ul
    149. };
    150. // 获取比prime大那一个素数
    151. size_t i = 0;
    152. for (; i < PRIMECOUNT; ++i)
    153. {
    154. if (primeList[i] > prime)
    155. return primeList[i];
    156. }
    157. return primeList[i];
    158. }
    159. pairbool> Insert(const T& data)
    160. {
    161. HashFunc hf;
    162. KeyOfT kot;
    163. iterator pos = Find(kot(data));
    164. if (pos != end())
    165. {
    166. return make_pair(pos, false);
    167. }
    168. // 负载因子 == 1 扩容
    169. if (_tables.size() == _n)
    170. {
    171. //size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
    172. size_t newSize = GetNextPrime(_tables.size());
    173. if (newSize != _tables.size())
    174. {
    175. vector newTable;
    176. newTable.resize(newSize, nullptr);
    177. for (size_t i = 0; i < _tables.size(); ++i)
    178. {
    179. Node* cur = _tables[i];
    180. while (cur)
    181. {
    182. Node* next = cur->_next;
    183. size_t hashi = hf(kot(cur->_data)) % newSize;
    184. cur->_next = newTable[hashi];
    185. newTable[hashi] = cur;
    186. cur = next;
    187. }
    188. _tables[i] = nullptr;
    189. }
    190. newTable.swap(_tables);
    191. }
    192. }
    193. size_t hashi = hf(kot(data));
    194. hashi %= _tables.size();
    195. // 头插到对应的桶
    196. Node* newnode = new Node(data);
    197. newnode->_next = _tables[hashi];
    198. _tables[hashi] = newnode;
    199. ++_n;
    200. return make_pair(iterator(newnode, this), true);
    201. }
    202. iterator Find(const K& key)
    203. {
    204. if (_tables.size() == 0)
    205. {
    206. return iterator(nullptr, this);
    207. }
    208. KeyOfT kot;
    209. HashFunc hf;
    210. size_t hashi = hf(key);
    211. hashi %= _tables.size();
    212. Node* cur = _tables[hashi];
    213. while (cur)
    214. {
    215. if (kot(cur->_data) == key)
    216. {
    217. return iterator(cur, this);
    218. }
    219. cur = cur->_next;
    220. }
    221. return iterator(nullptr, this);
    222. }
    223. bool Erase(const K& key)
    224. {
    225. if (_tables.size() == 0)
    226. {
    227. return false;
    228. }
    229. HashFunc hf;
    230. KeyOfT kot;
    231. size_t hashi = hf(key);
    232. hashi %= _tables.size();
    233. Node* prev = nullptr;
    234. Node* cur = _tables[hashi];
    235. while (cur)
    236. {
    237. if (kot(cur->_data) == key)
    238. {
    239. if (prev == nullptr)
    240. {
    241. _tables[hashi] = cur->_next;
    242. }
    243. else
    244. {
    245. prev->_next = cur->_next;
    246. }
    247. delete cur;
    248. return true;
    249. }
    250. prev = cur;
    251. cur = cur->_next;
    252. }
    253. return false;
    254. }
    255. private:
    256. vector _tables; // 指针数组
    257. size_t _n = 0;
    258. };
    259. }

    接下来封装unordered_set和unordered_map就比较简单了。 

    2.unordered_set

            unordered_set是K模型的,因此这里仿函数HashFunc中返回的返回的key。

            其它接口都是去调用改造后的哈希表。

    1. #pragma once
    2. #include "HashTable.h"
    3. namespace hb
    4. {
    5. template <class K, class HashFunc = DefaultHash>
    6. class unordered_set
    7. {
    8. struct SetKeyOfT
    9. {
    10. const K& operator()(const K& key)
    11. {
    12. return key;
    13. }
    14. };
    15. public:
    16. typedef typename Bucket::HashTable::iterator iterator;
    17. iterator begin()
    18. {
    19. return _ht.begin();
    20. }
    21. iterator end()
    22. {
    23. return _ht.end();
    24. }
    25. pairbool> insert(const K& key)
    26. {
    27. return _ht.Insert(key);
    28. }
    29. iterator find(const K& key)
    30. {
    31. return _ht.Find(key);
    32. }
    33. bool erase(const K& key)
    34. {
    35. return _ht.Erase(key);
    36. }
    37. private:
    38. Bucket::HashTable _ht;
    39. };
    40. }

    3.unordered_map

            unordered_map是K,V模型的,因此这里仿函数HashFunc中返回的返回的kv.first。

            其它接口都是去调用改造后的哈希表。这里就注意一下[]操作符的实现即可。

    1. #pragma once
    2. #include "HashTable.h"
    3. namespace hb
    4. {
    5. template<class K, class V, class HashFunc = DefaultHash>
    6. class unordered_map
    7. {
    8. struct MapKeyOfT
    9. {
    10. const K& operator()(const pair& kv)
    11. {
    12. return kv.first;
    13. }
    14. };
    15. public:
    16. typedef typename Bucket::HashTable, MapKeyOfT, HashFunc>::iterator iterator;
    17. iterator begin()
    18. {
    19. return _ht.begin();
    20. }
    21. iterator end()
    22. {
    23. return _ht.end();
    24. }
    25. pairbool> insert(const pair& kv)
    26. {
    27. return _ht.Insert(kv);
    28. }
    29. iterator find(const K& key)
    30. {
    31. return _ht.Find(key);
    32. }
    33. bool erase(const K& key)
    34. {
    35. return _ht.Erase(key);
    36. }
    37. V& operator[](const K& key)
    38. {
    39. pairbool> ret = insert(make_pair(key, V()));
    40. return ret.first->second;
    41. }
    42. private:
    43. Bucket::HashTable, MapKeyOfT, HashFunc> _ht;
    44. };
    45. }
  • 相关阅读:
    The Sandbox 正在 Polygon 网络上进行部署
    智能医疗:互联网医院开发的挑战与机会
    单片机的调试接口 JTAG SWD
    类与对象(1)
    uniapp uni.getLocation:fail 频繁调用会增加电量损耗
    【Linux入门学习教程】
    软考中级-软件设计师-第1章 软件设计师考试介绍
    Docker - 镜像
    AIGC启示录:深度解析AIGC技术的现代性与系统性的奇幻旅程
    「C系列」C 文件读写
  • 原文地址:https://blog.csdn.net/qq_60750110/article/details/126746419