DS & AL-绪论

2022-05-18

字数统计: 2.3k字 | 阅读时长≈ 8分

数据结构在学什么？基本概念和术语、数据结构三要素、算法的基本概念、算法的时间和空间复杂度

1、数据结构在学什么？

数据结构在学什么?

1.如何用程序代码把现实世界的问题信息化（如：如何用代码表示好友相互关注的逻辑关系）

2.如何用计算机高效地处理这些信息从而创造价值

人类社会的发展，迄今经历了和经历着三个浪潮:
第一次浪潮为农业阶段，从约1万年前开始;
第二次浪潮为工业阶段，从17世纪末开始;
第三次浪潮为正在到来的信息化阶段。
————《第三次浪潮（1980版)》,阿尔文·托夫勒

2、基本概念和术语

2.1 数据

1
2

数据是信息的载体，是描述客观事物属性的数、字符及所有能输入到计算机中并被
计算机程序识别和处理的符号的集合。数据是计算机程序加工的原料。

现代计算机——经常处理非数值型问题。

对于非数值型的问题：

1、我们关心每个个体的具体信息

2、我们还关心个体之间的关系

2.2 数据元素(描述一个个体)、数据项(最小单位)

数据元素是数据的基本单位，通常作为一个整体进行考虑和处理。

一个数据元素可由若干数据项组成，==数据项==是构成数据元素的不可分割的最小单位。

2.3 数据对象(强调数据元素性质相同)

数据对象是具有相同性质的数据元素的集合，是数据的一个子集。

2.4 数据结构(强调数据元素之间的关系)

数据结构是相互之间存在一种或多种特定关系的数据元素的集合。

同一个数据对象里的数据元素，可以组成不同的数据结构。

不同的数据元素，可组成相同的数据结构（比如都是网状结构）。

数据结构这门课着重关注的是数据元素之间的关系，和对这些数据元素的操作，而不关心具体的数据项内容。

2.5 总结

数据>数据对象>数据元素>数据项。
数据结构(强调数据元素之间的关系)
数据是信息的载体。
数据对象(强调数据元素性质相同)，是数据的一个子集。
数据元素(描述一个个体)
数据项(最小单位)

3、数据结构三要素

3.1 逻辑结构(数据元素之间的逻辑关系)

408考纲中已将“集合”这种数据结构删除。

3.2 数据的运算

针对某种逻辑结构，结合实际需求，定义基本运算。

查找、插入、删除等。

3.3 物理结构(存储结构)

逻辑结构和数据运算只是定义了一种数据结构；如何用计算机实现这种数据结构（如何用计算机表示数据元素的逻辑关系）则需考虑物理结构。

1、顺序存储：

把逻辑上相邻的元素存储在物理位置上也相邻的存储单元中，元素之间的关系由存储单元的邻接关系来体现。

2、链式存储：

逻辑上相邻的元素在物理位置上可以不相邻，借助指示元素存储地址的指针来表示元素之间的逻辑关系。

3、索引存储：

在存储元素信息的同时，还建立附加的索引表。索引表中的每项称为索引项，索引项的一般形式是（关键字，地址)

4、散列存储：

根据元素的关键字直接计算出该元素的存储地址，又称哈希 (Hash）存储。（第六章-散列表）

【2、3、4都为非顺序存储（离散存储）】

1.若采用顺序存储，则各个数据元素在物理上必须是连续的;
若采用非顺序存储，则各个数据元素在物理上可以是离散的。
2.数据的存储结构会影响存储空间分配的方便程度
3.数据的存储结构会影响对数据运算的速度
（比如插入新元素，顺序存储可能需要挪动很多位；
而链式存储则只需将待插入元素指向前一位置元素，后一位置元素指向待插入元素即可）

运算的定义是针对逻辑结构的,指出运算的功能；
运算的实现是针对存储结构的,指出运算的具体操作步骤。

3.4 数据类型、抽象数据类型

数据类型是一个值的集合和定义在此集合上的一组操作的总称。

1）原子类型。其值不可再分的数据类型。

2）结构类型。其值可以再分解为若干成分(分量)的数据类型。

抽象数据类型(Abstract Data Type，ADT) 是抽象数据组织及与之相关的操作。

ADT用数学化的语言定义数据的逻辑结构、定义运算，与具体的实现无关。

定义一个ADT，就是在“定义”一种数据结构。确定了ADT的存储结构，才能“实现”这种数据结构。

4、算法的基本概念

程序=数据结构+算法

数据结构研究如何用数据正确地描述现实世界的问题，并存入计算机。

算法研究如何高效地处理这些数据，以解决实际问题。

4.1 算法的定义（求解问题的步骤）

算法(algorithm)是对特定问题求解步骤的一种描述，它是指令的有限序列，其中的每条指令表示一个或多个操作。

【例如，要解决的问题是做一个番茄炒蛋，数据结构则是提供所需的食材，而算法规定做菜的步骤】

4.2 算法的5个重要特性

1、有穷性（有限步、有穷时间，死循环不是算法）

一个算法必须总在执行有穷步之后结束，且每一步都可在有穷时间内完成。

注：算法必须是有穷的（用有限步骤解决某个特定的问题），而程序可以是无穷的（例如微信，不关闭就会一直运行下去）。

2、确定性（无歧义的，相同的输入得到相同的输出）

算法中每条指令必须有确切的含义，对于相同的输入只能得出相同的输出。

3、可行性（计算机可完成）

算法中描述的操作都可以通过已经实现的基本运算执行有限次来实现。

4、输入（>=0）

一个算法有零个或多个输入，这些输入取自于某个特定的对象的集合。

5、输出（>=1）

一个算法有一个或多个输出，这些输出是与输入有着某种特定关系的量。

4.3 算法设计的要求（“好”算法的特质）

1、正确性。算法应能够正确地解决求解问题。

2、可读性。算法应具有良好的可读性，以帮助人们理解。

3、健壮性。输入非法数据时，算法能适当地做出反应或进行处理，而不会产生莫名其妙的输出结果。

4、高效率与低存储量需求。

高效率：花的时间少，时间复杂度低。

低存储量需求：不费内存，空间复杂度低。

5、算法的空间复杂度（只关心数量级）

5.1 算法实现后执行要占据的空间：

1、数据本身要占据的空间，输入/输出、指令、常数、变量等。
（与算法无关，即采用不同的算法均需要这部分空间）
2、算法要使用的辅助空间（与算法有关）
（辅助空间为常量，则算法原地工作）

5.2 算法原地工作

无论问题规模怎么变，算法运行所需的内存空间都是固定的常量，算法空间复杂度为 S(n) = O(1)

注：S 表示 “Space”

算法原地工作——算法所需辅助空间为常量。【这里是忽略了与算法无关的内存空间】

5.3 空间复杂度只需关注存储空间大小与问题规模相关的变量

5.4 加法规则（乘法规则）

5.5 函数递归调用带来的内存开销

6、算法的时间复杂度

6.1 利用语句频度计算

6.2 时间复杂度表达式的简化

忽略所有低次幂项和最高次幂系数。

6.3 常对幂指阶

6.4 哪些代码语句需计算语句频度？

1、顺序执行的代码只会影响常数项，可以忽略。

2、只需挑循环中的一个基本操作分析它的执行次数与 n 的关系即可。

3、如果有多层嵌套循环，只需关注最深层循环循环了几次。

6.5 log2(n)

6.6 平均时间复杂度

本文作者： kur08a
本文链接： https://kur08a.github.io/2022/05/18/DS%20&%20AL-%E7%BB%AA%E8%AE%BA/
版权声明： 本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。转载请注明出处！