• 数据结构与算法之(赫夫曼树,哈夫曼树,压缩软件)


    一:思考

            1.电报发送:二战的时候大家都知道那时候普遍会应用电报,如果让你来设计一个电报的发送编码你该如何设计呢?

            2.压缩算法:给你10000个字符(每个字符1btye,也就是8bit)的文件,你怎么存储可以尽可能的节省空间呢?

            我相信大家肯定能想到的一个思路就是用某个字符来代替(映射)。比如在压缩算法里面我们可以用二进制来代替 假设字符是 a b c d 4种 那我们假定 a=000 b=001 c=010 d=100,这样我们每个字符就变成了3bit的二进制,那么10000个字符就是30000bit,比起原来的80000bit是不是缩小了很多的存储空间?

            缩小了将近3倍。

            100000001:dab Abcdaaaaaaaaa:n*3个bit位

            A:0

            B:101

            C:110

            D:100

    Abcdaaaaaaaaa:010111010000000000=>abcdaaaaaa Aaa,前缀。 但是这样做的话会有一个什么问题呢?是不是还有更优的方法呢?

            问题:是否会出现解码失败?如何判断是否是某个解码字符。

            解决:哈夫曼编码,也叫前缀编码 

      二:引入最优二叉树(二叉树的带权路径长度总和最小)

            满二叉树:除了叶子节点,其他的都有两个子节点,1 2 4 8这样的节点 2^n个点

            完全二叉树:除了最底层都有两个子节点,而且叶子节点是靠左连续的

            2.1 计算下面三颗二叉树的带权路径长度总和:

            其中每个点的权重为: a:7 b:5 c:2 d:4

            WPL(a):7*2+5*2+2*2+4*2=36()

            WPL(b):7*3+5*3+2*1+4*2=46()

            WPL(c):7*1+5*2+2*3+4*3=35()

            给定N个权值作为N个叶子结点,构造一棵二叉树,若该树的带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree)。哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近。 那么这个赫夫曼树和压缩又有什么关系呢?

            二叉树:二叉,这时候你要想到二进制,二叉分左右嘛。

            左节点的边设置为0,右节点的边设置为1

     三:如何实现?(贪心算法:最优解(就是排序))

            核心思想:贪心算法:利用局部最优推出全局最优,把频率出现多的用短码表示,频率出现小的就用长一点。而且,任何一个字符的编码都不是另一个的前缀,在解压缩的时候,我们每次会读取尽可能长的可解压的二进制串,所以在解压缩的时候也不会产生歧义。

            具体实现思路:

                    1.每次取数值最小的两个节点,将之组成为一颗子树。

                    2.移除原来的两个点

                    3.然后将组成的子树放入原来的序列中

                    4.重复执行1 2 3 直到只剩最后一个点

            例子: a:3 b:24 c:6 d:20 e:34 f:4 g:12 根据以上权重来实现哈夫曼树(代码实现)

            结点数据结构:

    1. package tree.哈夫曼;
    2. public class HfmNode implements Comparable{ //优先队列,小的我把你优先级调高
    3. String chars; //节点里面的字符
    4. int fre; //表示是频率,也是权重
    5. HfmNode left;
    6. HfmNode right;
    7. HfmNode parent; //用来找上层的
    8. /**
    9. * 用于在优先队列中比较节点的权重。
    10. * @param o the object to be compared.
    11. * @return
    12. */
    13. @Override
    14. public int compareTo(HfmNode o) {
    15. return this.fre - o.fre;
    16. }
    17. }

            哈夫曼:(实现编码,解码,生成哈夫曼)

                    这里使用了一个JDK的PriorityQueue,在 Java 中,该类是 Java 集合框架的一部分,用于创建优先级队列数据结构。优先级队列是一个专用队列,其中元素根据其优先级进行排序。具有最高优先级的元素始终位于队列的前面,并且是第一个要删除的元素。

    1. package tree.哈夫曼;
    2. import java.util.ArrayList;
    3. import java.util.HashMap;
    4. import java.util.List;
    5. import java.util.Map;
    6. import java.util.PriorityQueue;
    7. public class HuffmenTree {
    8. HfmNode root;
    9. List leafs; // 叶子节点
    10. Map weights; // 叶子节点的权重, a,b,c,d,e
    11. public HuffmenTree(Map weights) {
    12. this.weights = weights;
    13. leafs = new ArrayList();
    14. }
    15. public String decode(Map code, String encodedStr) { // 解码 不会给你们写的,留给课后作业
    16. StringBuilder decodedStr = new StringBuilder();
    17. HfmNode currentNode = root;
    18. for (int i = 0; i < encodedStr.length(); i++) {
    19. char c = encodedStr.charAt(i);
    20. if (c == '0') {
    21. currentNode = currentNode.left;
    22. } else if (c == '1') {
    23. currentNode = currentNode.right;
    24. }
    25. if (currentNode.left == null && currentNode.right == null) {
    26. decodedStr.append(currentNode.chars);
    27. currentNode = root;
    28. }
    29. }
    30. return decodedStr.toString();
    31. }
    32. public void encode() { // 解码 不会给你们写的,留给课后作业
    33. }
    34. // 叶子节点进行编码
    35. public Map code() {
    36. Map map = new HashMap();
    37. for (HfmNode node : leafs) {
    38. String code = "";
    39. Character c = new Character(node.chars.charAt(0)); // 叶子节点肯定只有一个字符
    40. HfmNode current = node; // 只有一个点
    41. do {
    42. if (current.parent != null && current == current.parent.left) { // 说明当前点是左边
    43. code = "0" + code;
    44. } else {
    45. code = "1" + code;
    46. }
    47. current = current.parent;
    48. } while (current.parent != null); // parent == null就表示到了根节点
    49. map.put(c, code);
    50. System.out.println(c + ":" + code);
    51. }
    52. return map;
    53. }
    54. public void creatTree() {
    55. Character keys[] = weights.keySet().toArray(new Character[0]); // 拿出所有的点
    56. PriorityQueue priorityQueue = new PriorityQueue(); // jdk底层的优先队列
    57. for (Character c : keys) {
    58. HfmNode hfmNode = new HfmNode();
    59. hfmNode.chars = c.toString();
    60. hfmNode.fre = weights.get(c); // 权重
    61. priorityQueue.add(hfmNode); // 首先把我们的优先队列初始化进去
    62. leafs.add(hfmNode);
    63. }
    64. int len = priorityQueue.size();
    65. for (int i = 1; i <= len - 1; i++) { // 每次找最小的两个点合并
    66. HfmNode n1 = priorityQueue.poll(); //
    67. HfmNode n2 = priorityQueue.poll(); // 每次取优先队列的前面两个 就一定是两个最小的
    68. HfmNode newNode = new HfmNode();
    69. newNode.chars = n1.chars + n2.chars; // 我们把值赋值一下,也可以不复制
    70. newNode.fre = n1.fre + n2.fre; // 把权重相加
    71. // 维护出树的结构
    72. newNode.left = n1;
    73. newNode.right = n2;
    74. n1.parent = newNode;
    75. n2.parent = newNode;
    76. priorityQueue.add(newNode);
    77. }
    78. root = priorityQueue.poll(); // 最后这个点就是我们的根节点
    79. System.out.println("构建完成");
    80. }
    81. public static void main(String[] args) {
    82. // a:3 b:24 c:6 d:20 e:34 f:4 g:12
    83. Map weights = new HashMap();
    84. //一般来说:动态的加密,最开始是不知道里面有什么内容的。我们需要一个密码本,往往就是某个字典。如果是英文就用英文字典,统计次数。
    85. //换密码本
    86. //静态的文件。针对性的做编码.图像加密,没有特性的。hash加密(MD5)
    87. weights.put('a', 3);
    88. weights.put('b', 24);
    89. weights.put('c', 6);
    90. weights.put('d', 1);
    91. weights.put('e', 34);
    92. weights.put('f', 4);
    93. weights.put('g', 12);
    94. HuffmenTree huffmenTree = new HuffmenTree(weights);
    95. huffmenTree.creatTree();
    96. Map code = huffmenTree.code();
    97. String str = "aceg";
    98. System.out.println("编码后的:");
    99. String decode = huffmenTree.decode(code,"00");
    100. System.out.println(decode);
    101. char s[] = str.toCharArray();
    102. }
    103. /*
    104. a:10110
    105. b:01
    106. c:1010
    107. d:00
    108. e:11
    109. f:10111
    110. g:100
    111. * *
    112. */
    113. }

            四:小结

            学完赫夫曼树,现在可以回到我们的思考题,这两个问题是不是就迎刃而解了。

            电报的设计:

                    1.电报加密后越短越好,发送快。

                    2.破解难

                    3.解码容易

                    4.换加密树也要快 、

                    5.可逆的。 什么叫不可逆:MD5这样的Hash加密,简单的MD5已经破解了,穷举:很大的库。Md5(paswd)=-> 接口的密码加密 从前端传到后端我要加密这个密码,Hash函数的了。后面讲 ,数据传输的时候回来怎么办?

            所以我们现在的很多数字通信里面很多都采用了哈夫曼编码。 压缩我相信大家就更能理解了,只要你明白了哈夫曼编码这个压缩算法其实就很容易了,相信你也可以很快就能实现出来。

  • 相关阅读:
    微信新升级?这2个功能是你们期盼的吗?
    虚拟滚动(Virtual Scrolling)实现
    前端马农:抢不到消费券,我还不会自己做一张吗
    OPENSQL2
    【QEMU系统分析之启动篇(十一)】
    死锁的发生原因和怎么避免
    【Linux】C语言实现对文件的加密算法
    iOS 内存泄漏问题总结
    德思特车载天线方案:打造智能互联的公共安全交通网络
    Stable Diffusion部署教程,开启你的AI绘图之路
  • 原文地址:https://blog.csdn.net/qq_67801847/article/details/132803223