Map和set是一种专门用来进行搜索的容器或者数据结构,其搜索的效率与其具体的实例化子类有关。其应用场景在于 “数据重组” 和"数据存储", Set 是一种叫集合的数据结构, Map是一种叫字典的数据结构.
一般情况下把搜索的数据称为"关键字"(key), 而关键字对应的值称作"值"(value),而Map和Set分别对应两种模型:
Set - > 纯Key模型
Map -> Key-Value模型
Map是一个接口,内部模型为Key-Value, 里面不能存放相同的key,每个key也只能对应一个value.而HashMap,TreeMap,Hashtable,SortedMap…实现了这个接口.
Map没有继承Collection,但是Map.Entry
方法 | 解释 |
---|---|
K getKey() | 返回 entry 中的 key |
V getValue() | 返回 entry 中的 value |
V setValue(V value) | 将键值对中的value替换为指定value |
static | 返回一个比较[器,按键自然顺序比较Map.Entry |
static | 返回一个比较器 ,使用给定的Comparator)比较Map.Entry的值 |
注:Map.Entry
Map<Integer, Integer> map = new HashMap<>();
for (Map.Entry<Integer, Integer> entry : map.entrySet()) {
System.out.println("key" + entry.getKey() + "value" + entry.getValue());
}
注意:for-each循环在java 5中被引入所以该方法只能应用于java 5或更高的版本中。如果你遍历的是一个空的map对象,for-each循环将抛出NullPointerException,因此在遍历前你总是应该检查空引用。
在for-each循环中遍历key或value。
for (Integer key : map.keySet()) {
System.out.println("key" + key);
}
for (Integer value : map.values()) {
System.out.println("value" + value);
}
该方法比entrySet遍历在性能上稍好,而且代码更加干净。
使用Iterator遍历
Iterator<Map.Entry<Integer, Integer>> entryIterator = map.entrySet().iterator();
while (entryIterator.hasNext()) {
Map.Entry<Integer, Integer> entry = entryIterator.next();
System.out.println("Key = " + entry.getKey() + ", Value = " + entry.getValue());
}
for (Integer key : map.keySet()) {
Integer value = map.get(key);
System.out.println("Key = " + key + ", Value = " + value);
}
因为从键取值是耗时的操作,所以效率低.
方法 | 解释 |
---|---|
V get(Object key) | 返回 key 对应的 value |
V getOrDefault(Object key, V defaultValue) | 返回 key 对应的 value,key 不存在,返回默认值 |
V put(K key, V value) | 设置 key 对应的 value |
V remove(Object key) | 删除 key 对应的映射关系 |
Set keySet() | 返回所有 key 的不重复集合 |
Collection values() | 返回所有 value 的可重复集合 |
Set | 返回所有的 key-value 映射关系 |
boolean containsKey(Object key) | 判断是否包含 key |
boolean containsValue(Object value) | 判断是否包含 value |
注意事项:
Map底层结构 | TreeMap | HashMap |
---|---|---|
底层结构 | 红黑树 | 哈希桶 |
插入/删除/查找时间 复杂度 | 0(logN) | O(1) |
是否有序 | 关于Key有序 | 无序 |
线程安全 | 不安全 | 不安全 |
插入/删除/查找区别 | 需要进行元素比较 | 通过哈希函数计算哈希地址 |
比较与覆写 | key必须能够比较,否则会抛出 ClassCastException异常 | 自定义类型需要覆写equals和 hashCode方法 |
应用场景 | 需要Key有序场景下 | Key是否有序不关心,需要更高的时间性能 |
Set是继承自Collection的接口类,并且Set中只存储了Key .
方法 | 解释 |
---|---|
boolean add(E e) | 添加元素,但重复元素不会被添加成功 |
void clear() | 清空集合 |
boolean contains(Object o) | 判断 o 是否在集合中 |
Iterator iterator() | 返回迭代器 |
boolean remove(Object o) | 删除集合中的 o |
int size() | 返回set中元素的个数 |
boolean isEmpty() | 检测set是否为空,空返回true,否则返回false |
Object[] toArray() | 将set中的元素转换为数组返回 |
boolean containsAll(Collection> c) | 集合c中的元素是否在set中全部存在,是返回true,否则返回 false |
boolean addAll(Collection extends E> c) | 将集合c中的元素添加到set中,可以达到去重的效果 |
注意事项:
Set底层结构 | TreeSet | HashSet |
---|---|---|
底层结构 | 红黑树 | 哈希桶 |
插入/删除/查找时间 复杂度 | 0(logN) | O(1) |
是否有序 | 关于Key有序 | 不一定有序 |
线程安全 | 不安全 | 不安全 |
插入/删除/查找区别 | 按照红黑树的特性来进行插入和删除 | 1. 先计算key哈希地址 2. 然后进行 插入和删除 |
比较与覆写 | key必须能够比较,否则会抛出 ClassCastException异常 | 自定义类型需要覆写equals和 hashCode方法 |
应用场景 | 需要Key有序场景下 | Key是否有序不关心,需要更高的时间性 |
二叉搜索树又称二叉排序树,具有以下特性:
查找逻辑:
public boolean search(int key) {
TreeNode cur = root;
while (cur != null) {
if (cur.key == key) {
return true;
} else if (cur.key < key) {
cur = cur.right;
} else {
cur = cur.left;
}
}
return false;
}
插入逻辑:
根据查找的逻辑寻找插入位置(有相同元素,则不插入).
public boolean insert(int key) {
//如果为树为空
if (root == null) {
root = new TreeNode(key);
return true;
}
TreeNode cur = root;
TreeNode parent = null;
//寻找插入位置,有相同元素不插入
while (cur != null) {
if (cur.key < key) {
parent = cur;
cur = cur.right;
} else if (cur.key > key) {
parent = cur;
cur = cur.left;
} else {
return false;
}
}
TreeNode node = new TreeNode(key);
if (parent.key < key) {
parent.right = node;
} else {
parent.left = node;
}
return true;
}
public TreeNode insertIntoBST(TreeNode root, int val) {
if(root == null){
return new TreeNode(val);
}
if(root.key < val){
root.right = insertIntoBST(root.right,val);
} else {
root.left = insertIntoBST(root.left,val);
}
return root;
}
设待删除结点为 cur, 待删除结点的双亲结点为 parent
cur.left == null
cur.right == null
cur.left != null && cur.right != null
1. 需要使用替换法进行删除,即在它的右子树中寻找中序下的第一个结点(关键码最小),用它的值填补到被
删除节点中,再来处理该结点的删除问题
public boolean remove(int key) {
TreeNode cur = root;
TreeNode parent = null;
//要删除元素首先要找到该元素
while (cur != null) {
if (cur.key < key) {
parent = cur;
cur = cur.right;
} else if (cur.key > key) {
parent = cur;
cur = cur.left;
} else {
//删除节点
removeNode(parent, cur);
return true;
}
}
return false;
}
private void removeNode(TreeNode parent, TreeNode cur) {
if (cur.left == null) {
if (cur == root) {
root = cur.right;
} else if (cur == parent.left) {
parent.left = cur.right;
} else if (cur == parent.right) {
parent.right = cur.right;
}
} else if (cur.right == null) {
//这里有个前提条件:cur.left != null
if (cur == root) {
root = cur.left;
} else if (cur == parent.left) {
parent.left = cur.left;
} else if (cur == parent.right) {
parent.right = cur.left;
}
} else {
//此时cur的左右节点都不为空
//需要用替换法:在它的右子树中寻找中序下的第一个结点,用它的值填补到被删除节点中,再来处理该结点的删除问题
TreeNode targetParent = cur;
TreeNode target = cur.right;
while (target.left != null) {
targetParent = target;
target = target.left;
}
cur.key = target.key;
if (target == targetParent.left) {
targetParent.left = target.right;
} else {
targetParent.right = target.right;
}
}
}
/**
* Created with Intellij IDEA.
* Description:
* User: a
* Date: 2022-06-29
* Time: 22:27
*/
public class BinarySearchTree {
static class TreeNode{
public int key;
public TreeNode left;
public TreeNode right;
public TreeNode(int key) {
this.key = key;
}
@Override
public String toString() {
return "TreeNode{" +
"key=" + key +
'}';
}
}
public TreeNode root;
/**
* 插入
* @param key
* @return
*/
public boolean insert(int key) {
//如果为树为空
if (root == null) {
root = new TreeNode(key);
return true;
}
TreeNode cur = root;
TreeNode parent = null;
//寻找插入位置,有相同元素不插入
while (cur != null) {
if (cur.key < key) {
parent = cur;
cur = cur.right;
} else if (cur.key > key) {
parent = cur;
cur = cur.left;
} else {
return false;
}
}
TreeNode node = new TreeNode(key);
if (parent.key < key) {
parent.right = node;
} else {
parent.left = node;
}
return true;
}
/**
* 查找元素
* @param key
* @return
*/
public boolean search(int key) {
TreeNode cur = root;
while (cur != null) {
if (cur.key == key) {
return true;
} else if (cur.key < key) {
cur = cur.right;
} else {
cur = cur.left;
}
}
return false;
}
/**
* 删除节点
* @param key
* @return
*/
public boolean remove(int key) {
TreeNode cur = root;
TreeNode parent = null;
//要删除元素首先要找到该元素
while (cur != null) {
if (cur.key < key) {
parent = cur;
cur = cur.right;
} else if (cur.key > key) {
parent = cur;
cur = cur.left;
} else {
//删除节点
removeNode(parent, cur);
return true;
}
}
return false;
}
private void removeNode(TreeNode parent, TreeNode cur) {
if (cur.left == null) {
if (cur == root) {
root = cur.right;
} else if (cur == parent.left) {
parent.left = cur.right;
} else if (cur == parent.right) {
parent.right = cur.right;
}
} else if (cur.right == null) {
//这里有个前提条件:cur.left != null
if (cur == root) {
root = cur.left;
} else if (cur == parent.left) {
parent.left = cur.left;
} else if (cur == parent.right) {
parent.right = cur.left;
}
} else {
//此时cur的左右节点都不为空
//需要用替换法:在它的右子树中寻找中序下的第一个结点,用它的值填补到被删除节点中,再来处理该结点的删除问题
TreeNode targetParent = cur;
TreeNode target = cur.right;
while (target.left != null) {
targetParent = target;
target = target.left;
}
cur.key = target.key;
if (target == targetParent.left) {
targetParent.left = target.right;
} else {
targetParent.right = target.right;
}
}
}
public void inorder(TreeNode root) {
if (root == null) {
return;
}
inorder(root.left);
System.out.print(root.key + " ");
inorder(root.right);
}
public TreeNode getRoot() {
return root;
}
}
二叉搜索树的查找和删除操作都先要查找,所以二叉搜索树的查找效率代表它各个操作的性能.对于一颗有n个节点的二叉搜索树,若没有元素的查找概率相同,那二叉搜索树的平均查找长度是二叉搜索树的深度.
然而对于元素的插入次序不同,得到的树结构也不同.
最优情况下,二叉搜索树为完全二叉树,其平均比较次数为:logN
最差情况下,二叉搜索树退化为单支树,其平均比较次数为 : N/2
如果退化成单支树,二叉搜索树的性能就失去了,于是在Java中的TreeMap 和 TreeSet 中利用红黑树实现的 Map 和 Set,而红黑树是一颗近似平衡的二叉搜索树,在二叉搜索树的基础之上 + 颜色以及红黑树性质验证.
在顺序结构和树结构中,在该结构中查找需要经过关键码的多次比较,在顺序结构中查找时间复杂度为0(N),平衡树的为0(logN),即树的高度.那有没有一种结构可以不用经过任何比较,直接从表中获得要搜索的元素.哈希表就能够做到,具体思想是通过某种函数(hashFunc)使元素的存储位置与它的关键码(由函数生成的)之间建立一一对应的关系,那么就可以达到0(1)的时间复杂度.
引入概念:
- 散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表.
- 若关键字为k,那么通过散列函数f(k)得到的结果就确定它存放的地址.按照这个思想建立的表为散列表.
散列函数可以使对数据的查找更加迅速,那么在生产环境中,需要考虑的因素有:
常见的哈希函数:
取关键字或关键字的某个线性函数值为散列地址。即H(key)=key或H(key) = a·key + b,其中a和b为常数,若其中H(key)中已经有值了,就往下一个找,直到H(key)中没有值了,就放进去. 这种方法需要事先知道关键字的分布情况 ,适合查找比较小且连续的情况
设散列表中允许的地址数为m**,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:**Hash(key) = key% p(p<=m),将关键码转换成哈希地址 .
当无法确定关键字中哪几位分布较均匀时,可以先求出关键字的平方值,然后按需要取平方值的中间几位作为哈希地址。这是因为:平方后中间几位和关键字中每一位都相关,故不同关键字会以较高的概率产生不同的哈希地址.平方取中法比较适合:不知道关键字的分布,而位数又不是很大的情况
将关键字分割成位数相同的几部分,最后一部分位数可以不同,然后取这几部分的叠加和(去除进位)作为散列地址。折叠法适合事先不需要知道关键字的分布,适合关键字位数比较多的情况
选择一个随机函数,取关键字的随机函数值为它的哈希地址,即H(key) = random(key),其中random为随机数函数 .通常用于关键字长度不等的场合。
设有n个d位数,每一位可能有r种不同的符号,这r种不同的符号在各位上出现的频率不一定相同,可能在某些位上分布比较均匀,每种符号出现的机会均等,在某些位上分布不均匀只有某几种符号经常出现。可根据散列表的大小,选择其中各种符号分布均匀的若干位作为散列地址。例如 :
假设要存储某家公司员工登记表,如果用手机号作为关键字,那么极有可能前7位都是 相同的,那么我们可以选择后面的四位作为散列地址,如果这样的抽取工作还容易出现 冲突,还可以对抽取出来的数字进行反转(如1234改成4321)、右环位移(如1234改成4123)、左环移位、前两数与后两数叠加(如1234改成12+34=46)等方法。
数字分析法通常适合处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布较均匀的情况
注:哈希函数设计的越精妙,产生哈希冲突的可能性就越低,但是无法避免哈希冲突
对于两个数据元素的ki关键字kj和 (i != j),有ki != kj,但有:Hash( ki) == Hash( kj),即不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。把具有不同关键码而具有相同哈希地址的数据元素称为**“同义词”**。
首先,我们需要明确一点,由于我们哈希表底层数组的容量往往是小于实际要存储的关键字的数量的,这就导致一个问题,冲突的发生是必然的,但我们能做的应该是尽量的降低冲突率
负载因子和冲突率的关系图示:
所以当冲突率不断上升时,我们必须要降低负载因子,又因为在负载因子的定义中可以知道,表中元素个数是不可变,所以只能改变散列表的大小来降低负载因子.
解决哈希冲突两种常见的方法是:闭散列和开散列
闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存放到冲突位置中的“下一个” 空位置中去 .
在上面的场景中如果再插入44,通过哈希函数计算的下标为4,此时就产生哈希冲突.此时有两种解决方案:
思想:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。
探测步骤:
- 通过哈希函数得到关键字的在哈希表中地址
- 检查该地址是否被占用,没有占用直接插入,占用就向后遍历,找到空位置插入.
- 采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素会影响其他元素的搜索。比如删除元素4,如果直接删除掉,44查找起来可能会受影响。因此线性探测采用标记的伪删除法来删除一个元素。
线性探测的缺陷是产生冲突的数据堆积在一块,这与其找下一个空位置有关系,因为找空位置的方式就是挨着往后逐个去找,因此二次探测为了避免该问题,找下一个空位置的方法为 H i = ( H 0 + i 2 ) % m H_i=(H_0+i^2)\%{m} Hi=(H0+i2)%m,或者 H i = ( H 0 − i 2 ) % m H_i=(H_0-i^2)\%{m} Hi=(H0−i2)%m其中:i = 1,2,3…, 是通过散列函数Hash(x)对元素的关键码 key 进行计算得到的位置,m是表的大小.
研究表明:当表的长度为质数且表装载因子a不超过0.5时,新的表项一定能够插入,而且任何一个位置都不会被探查两次。因此只要表中有一半的空位置,就不会存在表满的问题。在搜索时可以不考虑表装满的情况,但在插入时必须确保表的装载因子a不超过0.5,如果超出必须考虑增容 .
总结:对于它的缺陷是空间利用率高,但这是哈希表的缺陷,这种方法在查找或者删除(二者其实一样,你要先查找,然后才能删除)时,如果哈希表中元素密集,在查找时(与负载因子有关)最坏的时间复杂度为0(N),效率低下.
开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中 .
已知有一个关键字序列:(19,14,23,1,68,20,84,27,25,11,10,79)散列存储在一个哈希表中,若散列函数为H(key)=key%7,并采用链地址法来解决冲突,则在等概率情况下查找成功的平均查找长度为()
14,1,23,10,11,19,20: 比较1次就可以找到; 84,79,68,27:需要比较两次才可以找到; 25: 需要比较三次才可以找到.
总的比较次数为:7+4*2+3=18,总共有12个元素
等概率情况下查找成功的平均查找长度为:18/12 = 1.5
import java.util.NoSuchElementException;
/**
* Created with Intellij IDEA.
* Description:
* User: a
* Date: 2022-07-02
* Time: 20:39
*/
public class HashBuck {
static class Node {
public int key;
public int val;
public Node next;
public Node(int key, int val) {
this.key = key;
this.val = val;
}
}
public Node[] array;
public int usedSize;//存放的元素个数
private static final double DEFAULT_LOAD_FACTOR = 0.75;//默认负债因子
public HashBuck() {
//默认大小为8
array = new Node[8];
}
/**
* 存放元素
* @param key
* @param val
*/
public void put(int key, int val) {
Node node = new Node(key, val);
//根据哈希函数找到目标下标
int index = key % array.length;
//1.遍历当前下标下的链表是否存在该val
Node cur = array[index];
while (cur != null) {
if (cur.key == key) {
cur.val = val;
return;
}
cur = cur.next;
}
//2.没有找到,只能插入当前链表
//采用头插法:
node.next = array[index];
array[index] = node;
usedSize++;
if (loadFactor() >= DEFAULT_LOAD_FACTOR) {
resize();
}
}
/**
* 扩容
* 要进行重新哈希,即遍历每一个结点
*/
private void resize() {
Node[] tmp = new Node[2 * array.length];
//遍历原来的数组
for (int i = 0; i < array.length; i++) {
//得到当前下标的链表头
Node cur = array[i];
while (cur != null) {
Node curNext = cur.next;
//重新计算下标
int index = cur.key % tmp.length;
//插入
cur.next = tmp[index];
tmp[index] = cur;
//更新结点
cur = curNext;
}
}
array = tmp;
}
private double loadFactor() {
return (double)usedSize / array.length;
}
/**
* 获取元素
* @param key
* @return
*/
public int get(int key) {
int index = key % array.length;
Node cur = array[index];
while (cur != null) {
if (cur.key == key) {
return cur.val;
}
cur = cur.next;
}
return -1;
}
/**
* 是否存在key
* @param key
* @return
*/
public boolean containsKey(int key) {
int index = key % array.length;
Node cur = array[index];
while (cur != null) {
if (cur.key == key) {
return true;
}
cur = cur.next;
}
return false;
}
/**
* 是否存在value
* @param value
* @return
*/
public boolean containsValue(int value) {
for (int i = 0; i < usedSize; i++) {
for (Node cur = array[i]; cur != null; cur = cur.next) {
if (cur.val == value) {
return true;
}
}
}
return false;
}
/**
* 删除key
* @param key
* @return
*/
public int remove(int key) {
int index = key % array.length;
//1. 判断链表头是否为删除元素
Node head = array[index];
if (head.key == key) {
int val = head.val;
array[index] = head.next;
//删除该节点
head.next = head = null;
usedSize--;
return val;
}
//2.链表头不是
Node pre = head;
while (pre.next != null) {
if (pre.next.key == key) {
// pre为删除元素的前驱
Node cur = pre.next;
int val = cur.val;
//删除
pre.next = cur.next;
cur.next = cur = null;
usedSize--;
return val;
}
}
throw new NoSuchElementException("不存在");
}
}
在实际使用过程中,我们认为哈希表的冲突率是不高的,冲突个数是可控的,也就是每个桶中的链表的长度是一个常数,所以,通常意义下,我们认为哈希表的插入/删除/查找时间复杂度是O(1) 。
其实Set就是利用Map中key的不可重复性,value传个空对象就行了.
当通过哈希函数计算的地址大部分相同时,这时候哈希表就会趋于链表化,此时查找的时间复杂度为0(N),所以在JDK8引入了在链表元素大于64并且链表长度大于8时,就会树化,最差也是 l o g 2 N log_2N log2N
源码分析:
如果容量为0,则容量为0,在第一次put后,大小变为16
哈希码产生依据:哈希码并不是完全唯一的,它是一种算法,让同一个类的对象按照自己不同的特征尽量的有不同的哈希码,但不表示不同的对象哈希码完全不同。也有相同的情况。
Q1:hashCode()方法和equal()方法的作用其实一样,在Java里都是用来对比两个对象是否相等一致,那么equal()既然已经能实现对比的功能了,为什么还要hashCode()呢?
- 因为重写的equal()里一般比较的比较全面比较复杂,这样效率就比较低,而利用hashCode()进行对比,则只要生成一个hash值进行比较就可以了,效率很高,那么hashCode()既然效率这么高为什么还要equal()呢?
- 因为hashCode()并不是完全可靠,有时候不同的对象他们生成的hashcode也会一样(生成hash值得公式可能存在的问题),所以hashCode()只能说是大部分时候可靠,并不是绝对可靠,所以我们可以得出:
- equal()相等的两个对象他们的hashCode()肯定相等,也就是用equal()对比是绝对可靠的。
- hashCode()相等的两个对象他们的equal()不一定相等,也就是hashCode()不是绝对可靠的。