数据:描述事物的符号记录。
无结构的文本形式描述
:钱塘江,男,1976年9月出生,江西南昌人,现工作于江西财经大学信息管理学院,教授,主要研究兴趣包括大数据管理、数据挖掘、情感分析。
(显然,数据的表现形式不能完全表达其内容,其含义即语义需要经过解释才能被正确理解,因此数据和关于数据的解释是不可分的。)
表格形式(有结构的记录形式)描述
:
(表中一行数据组织在一起便构成一条记录,其数据的语义已由其所在列的表头栏目名解释,因此表格描述的数据称为结构化数据。)
半结构化数据
:介于完全结构化数据
(如关系型数据库、面向对象数据库中的数据)和完全无结构
的数据(如自然语言文本、音频、视频、图像文件等)之间的数据,XML文档就属于典型的半结构化数据,它一般是自描述的,数据的结构(即语义)和内容混在一起。
数据处理:从大量、杂乱无章、难以理解的数据中抽取并推导出对于某些特定的人们来说有价值、有意义的数据。
数据管理:对数据进行有效的分类
、组织
、编码
、存储
、检索
、维护
和应用
——数据处理的中心问题。
数据管理技术经历了
人工管理
、文件系统
和数据库系统
三个阶段。
数据库管理系统阶段
DBMS
:数据库管理系统(数据管理专门软件,由一个相互关联的数据集合和一组用以访问、管理和控制这些数据的程序组成。)
DB
:数据集合通常称为数据库
数据库结构的基础是数据模型(data model)
数据模型是一个描述数据结构
、数据操作
以及数据约束
的数学形式体系(即概念及其符号表示系统),精确描述系统的静态特性、动态特性和完整性规则。
一致性
、完整性
约束,亦称为数据完整性约束 。通过数据模型可以对现实世界的数据特征进行抽象。根据数据抽象的不同级别,将数据模型划分为3类:
信息模型
。整体逻辑结构
。物理存储结构和存取方法
。实体-联系模型
(E-R模型)和面向对象模型
(OO模型)
实体
的基本对象以及这些对象间的联系构成。
面向对象观
点来描述现实世界实体(对象)的逻辑组织、对象间限制和联系等的模型。
DBMS的实现
。既考虑用户容易理解,又考虑便于DBMS实现。数据抽象最低层,具体实现是DBMS的任务,数据库设计人员要了解和选择物理模型,一般用户不必考虑物理层细节。
数据库设计人员
完成。数据库设计人员
完成,也可以用数据库设计工具
协助设计人员完成。DBMS
来完成 。数据结构:描述数据库的组成对象以及对象之间的联系 。
数据操作:指对数据库中各种对象(型)的实例(值)允许执行的操作集合,包括操作及有关的操作规则 。
数据完整性约束:一组数据完整性规则,是数据、数据语义和数据联系所具有的制约和依存规则,包括数据结构
完整性规则和数据操作
完整性规则,限定符合数据模型的数据库状态及状态变化,保证数据库中数据的正确、有效和相容。
关系(relation)
:一个关系对应一张二维表,每一个关系有一个名称,即关系名;元组(tuple)
:表中的一行称为一个元组;属性(attribute)
:表中的一列称为一个属性,每一个属性有一个名称,即属性名;码(key)
:也称为码键或键。表中的某个属性或属性组,可以唯一地确定关系中的一个元组,如关系Student中的学号,可以唯一地标识一个学生 ;域(domain)
:属性的取值范围;分量(component)
:元组中的一个属性值;外码(foreign key)
:表中某个属性或属性组,描述本关系中的元组(实体)与另一关系中的元组(实体)之间的联系(两个关系之间的联系)。
关系模式(relational schema)
:通过关系名和属性名列表对关系进行描述,即二维表的表头部分(表格的描述部分)关系名(属性名1,属性名2,…,属性名n)
说明:带下画线的属性为码属性,斜体的属性为外码属性
关系模型要求关系必须规范化,即要求关系必须满足一定的规范条件。
最基本的规范条件:
元组
必须是可区分的,即存在码属性。属性
(即元组的分量)必须是一个不可分的数据项,即不允许表中有表 。查询
和更新
(插入
、删除
和修改
)。实体完整性
、参照完整性
和用户自定义完整性
三种。
DBMS:隐藏关于数据存储和维护的某些细节,为用户提供数据在不同层次上的视图,即数据抽象,方便不同的使用者可以从不同的角度去观察和利用数据库中的数据。
根据3级数据抽象,DBMS提供观察数据库的3个角度,方便不同用户使用数据库。即数据库的三级模式结构 。即:外模式—模式—内模式。
逻辑模式
,对应逻辑层数据抽象,描述数据库全体数据的逻辑结构和特征,所有用户的公共数据视图。存储模式,对应物理层数据抽象,描述数据的物理结构和存储方式,是数据在数据库内部的表示方式。
数据库的两层映像功能与数据独立性
外模式/模式映像:一对多
作用:保证数据与应用程序的逻辑独立性,简称数据的逻辑独立性 。
模式/内模式映像 :一对一
作用:保证了数据与应用程序的物理独立性,简称数据的物理独立性。
三级模式
:数据库管理系统(DBMS)的体系结构,提供外模式、模式和内模式,通过从不同抽象级别观察数据库中的数据,实现对用户屏蔽DBMS的复杂性、简化用户与系统交互的目的。三层模型
:数据库设计的工具和方法,提供概念模型、逻辑模型和物理模型,通过逐层设计应用系统的数据库,实现从现实世界到信息世界、信息世界到逻辑机器世界、逻辑机器世界到物理机器世界的逐步转换(对应模式与内模式要求)。数据库系统(database system, DBS):指在计算机系统中引入数据库后的系统,一般由
数据库
、数据库管理系统
(及其应用开发工具)、应用系统
、数据库管理员
和最终用户
构成。
数据库
(database, DB) :存储数据的仓库,通常包括用户数据、元数据、索引和应用元数据等。数据库管理系统
(Database Management System,DBMS):负责数据库的访问、管理和控制的一个系统软件,由一组软件组成。应用系统
:指为某特定应用需求而开发的的应用程序组成的软件。用户
:由数据库系统的开发、管理和使用人员所构成,通常包括数据库管理员、应用系统开发人员、终端用户。数据库管理员
(database administrator, DBA),是指数据库的建立、使用和维护等的工作人员开发、管理和使用数据库系统的人员: