数据结构学习如何用程序代码把现实世界的问题信息化,学习如何用计算机高效地处理这些信息从而创造价值
数据是信息的载体,是描述客观事物属性的数,字符及所有能输入计算机中并被计算机程序识别和处理的符号的集合。数据是计算机程序加工的原料。
数据元素是数据的基本单位,通常作为一个整体进行考虑和处理
一个数据元素可由若干数据项组成,数据项是构成数据元素的不可分割的最小单位。多个数据项可组成组合项
要根据实际的业务需求来确定什么是数据元素,什么是数据项。
数据结构是相互之间存在一种或多种特定关系的数据元素的集合
数据对象是具有相同性质的数据元素的集合,是数据的一个子集
数据元素之间的逻辑关系是什么?
集合:各个元素同属一个集合,别无其他关系
线性结构:数据元素之间是一对一的关系。除了第一个元素,所有元素都有唯一前驱;除了最后一个元素,所有元素都有唯一后继
树形结构:数据元素之间是一对多的关系
图结构:数据元素之间是多对多的关系
探讨如何用计算机表示数据元素的逻辑关系?
以线性结构这种逻辑结构为例。存储结构可分为顺序存储,链式存储,索引存储,散列存储,后三种为非顺序存储
顺序存储:把逻辑上相邻的元素存储在物理上也相邻的存储单元中,元素之间的关系由存储单元的邻接关系来体现
链式存储:逻辑上相邻的元素在物理位置上可以不相邻,借助指示元素存储地址的指针来表示元素之间的逻辑关系,用指针表示下一个数据元素的存储地址
索引存储:在存储元素信息的同时,还建立附加的索引表。索引表中的每项称为索引项,索引项的一般形式是(关键字,地址)
散列存储:根据元素的关键字直接计算出元素的存储地址,又称哈希存储(在第六章的散列表学习)
以上内容,现在只需要理解以下几点即可
施加在数据上的运算包括运算的定义和实现。运算的定义是针对逻辑结构的,指出运算的功能;运算的实现是针对存储结构的,指出运算的具体操作步骤。
数据类型是一个值的集合和定义在此集合上的一组操作的总称,又可分为
1.原子类型。其值不可再分的数据类型
2.结构类型。其值可以再分解为若干成分(分量)的数据类型
抽象数据类型(ADT)是抽象数据组织及与之相关的操作。ADT用数学化的语言定义数据的逻辑结构,定义运算。与具体的实现无关。
定义一个ADT,就是定义了数据的逻辑结构,数据的运算。也就是定义了一个数据结构。而确定一种存储结构,就意味着在计算机中表示出数据的逻辑结构。存储结构不同,也会导致运算的具体实现不同。确定了存储结构,才能实现数据结构。
在探讨一种数据结构时:
1.定义逻辑结构(数据元素之间的关系)
2.定义数据的运算(针对现实需求,应该对这种逻辑结构进行什么样的运算)
3.确定某种存储结构,实现数据结构,并实现一些对数据结构的基本运算
程序=数据结构+算法,数据结构研究如何把现实世界的问题信息化,将信息存进计算机。同时还要实现对数据结构的基本操作。算法研究如何处理这些信息,解决实际问题
算法必须是有穷的,要求用有限的步骤解决某个特定的问题。而程序可以是无穷的
算法可以用伪代码描述,甚至用文字描述,重要的是要“无歧义”地描述出解决问题的步骤
让算法先运行,事后统计运行时间的方法是不科学的。因为存在如下问题
我们希望评估算法时能排除与算法本身无关的外界因素,且能事先估计,所以有了时间复杂度,以事前预估算法时间开销 T ( n ) T(n) T(n)与问题规模 n n n的关系
加法规则: T ( n ) = T 1 ( n ) + T 2 ( n ) = O ( f ( n ) ) + O ( g ( n ) ) = O ( m a x ( f ( n ) , g ( n ) ) ) T(n)=T_1(n)+T_2(n)=O(f(n))+O(g(n))=O(max(f(n),g(n))) T(n)=T1(n)+T2(n)=O(f(n))+O(g(n))=O(max(f(n),g(n)))
多项相加,只保留最高阶的项且系数变为1
乘法规则: T ( n ) = T 1 ( n ) + T 2 ( n ) = O ( f ( n ) ) × O ( g ( n ) ) = O ( f ( n ) × g ( n ) ) T(n)=T_1(n)+T_2(n)=O(f(n))\times O(g(n))=O(f(n)\times g(n)) T(n)=T1(n)+T2(n)=O(f(n))×O(g(n))=O(f(n)×g(n))
多项相乘,都保留
表达式只保留阶数高的部分,如 T ( n ) = n 3 + n 2 + 9999999 T(n)=n^3+n^2+9999999 T(n)=n3+n2+9999999的各项只保留 n 3 n^3 n3
只关心数量级,用大 O O O表示“同阶”,同等数量级。即:当 n → ∞ n\to\infty n→∞时,二者之比为常数
所以常数项系数可以省略,同时时间复杂度的计算结果用 O ( . . . ) O(...) O(...)的方式表示
可以结合洛必达法则和函数图像来证明,用“常对幂指阶”来记忆
顺序执行的代码只会影响最终结果的表达式的常数项,可以忽略。
考虑循环语句时,只需挑循环中的一个基本操作分析它的执行次数与 n n n的关系即可
如果有多层嵌套循环,只需关注最深层循环的循环次数与 n n n的关系
很多算法执行时间与输入的数据有关。这种时候就要考虑最好时间复杂度和最坏时间复杂度,平均时间复杂度
最坏时间复杂度:最坏情况下算法的时间复杂度
平均时间复杂度:所有输入示例等概率出现的情况下,算法的期望运行时间
最好时间复杂度:最好情况下算法的时间复杂度
基本上可以类比时间复杂度的计算
现在要运行一个程序,程序运行前会先把程序代码(这里的代码是源代码编译后生成的机器指令)放到内存中(大小固定,与问题规模无关)。接下来CPU会一行行的执行这些代码,内存中开辟空间存放局部变量和参数,数组和其他信息。
递归过程中每加深一层的调用都需要把这一层的局部变量,参数等在内存中开辟一块新的空间用于存储
递归过程中每加深一层的调用都需要把这一层的局部变量,参数等在内存中开辟一块新的空间用于存储