972信息检索 | 第一章信息检索概述 - 码农知识堂

972信息检索 | 第一章信息检索概述
信息检索基本概念

 信息检索的含义
- 广义的信息检索：是指将信息按一定的方式组织和存储起来，并根据信息用户的需要找出有关信息的过程。
- 狭义的信息检索：是指从信息集合中找出所需信息的过程。
信息检索的种类

根据检索对象的形式划分：
1. 文献型信息检索：以文献为检索对象的检索；
  
  文献型信息检索就像是在大量的文献中寻找与你的研究课题相关的内容。你可以使用关键词、作者、出版年份等信息来进行检索。通过文献型信息检索，你可以找到与你的研究课题相关的文献，从而获取更多的资料和知识。
2. 数值型信息检索：以数值或数据为对象的一种检索，包括文献中的某一数据、公式、图表等，数据检索分为数值型和非数值型；
  
  假设你正在进行一项统计数据的研究，并需要找到相关的数据来支持你的分析。数值型信息检索就像是在大量的数据集合中寻找与你的研究需要匹配的数值或数据。
3. 事实型信息检索：以某一客观事实为检索对象，查找某一事物发生的事件、地点及过程的检索，其检索结果主要是客观事实或为说明事实而提供的相关资料。
  
  假设你想了解关于某个历史事件或自然现象的相关信息。事实型信息检索就像是在各种信息源中寻找与你感兴趣的事件或事实相关的信息。
根据检索对象的角度划分：
1. 文本检索
2. 数值检索
3. 音频与视频检索
信息检索的基本原理

存储是检索的基础，检索是存储的目的

信息检索的基本原理：通过对大量的、分散无序的文献信息进行搜集、加工、组织和存储，建立各种各样的检索系统，并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致。
假设你是一位图书管理员，图书馆里有成千上万本书，每本书都有不同的内容和主题。这些书籍都是分散无序的，放置在不同的书架上。为了方便读者找到所需的书籍，你需要对这些书籍进行搜集、加工、组织和存储。
1. 搜集：你首先搜集各种各样的书籍，包括小说、教科书、百科全书等。
2. 加工：在搜集的过程中，你需要对书籍按照《中图法》进行整理、分类和编号，以便更好地管理它们。
3. 组织和存储：需要将整理好的书籍放置在适当的书架上，以便读者能够轻松找到所需的书籍。你可能会在图书馆内建立不同的区域，如小说区、科学区、历史区等，使读者能够快速定位他们感兴趣的书籍。
现在，有一位读者来到图书馆，想要找一本关于JAVA的书籍。这就是一个信息检索的过程。读者的需求是找到关于JAVA的书籍，而图书管理员建立了相应的检索系统，一个在线书目查找数据库，里面记录着每本书籍的信息和位置。读者可以使用关键词“JAVA”在数据库中进行检索，这样就能找到所需的书籍，达到存储与检索过程的一致性。
- 文献替代：将表示文献资源特征的元数据指代它指代的资源，实际上是对原始文献的外部特征进行描述的过程（又称著录，著录的结果是将原始文献制作成它的替代文献——二次文献）
- 文献整序：是对替代文献进行标引，给出文献标识，将所有替代文献按其标识进行有规律的组织排列，形成可检索的信息资源集合。
信息检索语言：是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。

假设你正在使用一个图书馆的在线目录系统来查找关于JAVA的书籍。这个目录系统提供了一个搜索框，你可以在里面输入关键词来描述你的信息需求。这里，你使用的关键词就是信息检索语言的一部分。

你可以输入关键词"JAVA"，这是一个描述你信息需求的词汇。

这个关键词可以被系统识别并与图书馆相关书籍进行匹配，以找到相关的书籍。除了关键词，还可以使用其他的描述符号或规则，如逻辑运算符（AND、OR、NOT）或通配符（*、?）等来更精确地描述你的信息需求。

信息检索的历史

 手工检索（1876-1945）

信息检索起源于参考咨询工作

正规的参考咨询服务工作由美国的公共图书馆和大专院校图书馆于19世纪下半叶首先发展起来。20世纪初，多数图书馆成立了参考咨询部门，主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成答案。

手工检索的特点：操作简单、费用低廉、查准率高、效率低、查全率无法保证

 机械信息检索（1945-1954）

现代情报学创始人美国的万尼瓦尔·布什博士在“As we may think”一文中首次提出利用机械、电子技术实现情报检索的设想

机械信息检索系统是上世纪五十年代开始的用各种机械装置进行情报检索的机械系统，是手工检索向计算机信息检索的过渡阶段。

利用当时先进的机械装置改进了信息的存贮和检索方式，通过控制机械动作，借助机械信息处理机的数据识别功能代替部分人脑，促进了信息检索的自动化。

机械信息检索系统的特点：采用单一方法对固定的存贮形式进行检索、过分依赖设备、检索复杂、成本较高、检索效率和质量不理想。

脱机批处理检索（1954-1965）

世界上第一个计算机文献信息检索系统：美国海军利用IBM701机器进行的计算机存储于检索实验

脱机信息检索系统：利用计算机的输入输出装置进行检索，用磁带存储介质的系统。集中一批用户的信息要求，预先制定好检索策略，以机读形式存储在检索系统的计算机存贮器中，定期地检索数据库新增加的内容，然后把命中的文献信息分发给用户（定题检索或脱机检索）。

不足：地理上的障碍、时间上的迟滞、封闭式的检索。

联机检索（1965-1991）

1965年第一台联机信息检索软件：书目信息分时联机系统

20世纪70年代后，开始商业化运营阶段，面向公众提供服务

20世纪80年代，进入国际联机检索阶段

国际联机信息检索是指商业性的计算机数据库检索服务机构通过国际（卫星）通信网络，为世界各地的用户终端提供人机对话式的检索的服务方式

由于国际联机信息检索费用高，出现了光盘检索

国际联机信息检索的特点：检索速度快、效率高；检索范围广泛、全面；检索途径多，方便，灵活；检索内容新，实时性强；检索辅助功能完善；检索费用高；对检索系统及其文档的收录、标引、特点等问题较难理解和熟悉；检索技术和技巧不易掌握

光盘检索的特点：体积微小；使用方便；易于操作；价格低；寿命长；投资少；信息获得比国际联机慢；信息更新不及时

 网络信息检索（1991-至今）

1991年，WAIS诞生，允许用户检索整个因特网上文本信息资源

1992年，因特网向社会开放

1994年，Yahoo！诞生

1994年，最早现代意义上的搜索引擎——Lycos诞生，从此搜索引擎进入高速发展时期

 信息检索的模型

信息检索模型是信息检索的核心

信息检索模型：就是运用数学的语言和工具，对信息检索系统中的信息及其处理过程加以翻译和抽象，表述为某种数学公式，再经过演绎、推断、解释和实际校验，反过来指导信息检索实践。

主要的信息检索模型有三种：
1. 布尔模型
2. 向量空间模型
3. 经典概率模型
布尔模型
- 布尔模型是基于集合理论和布尔代数的一种简单的检索模型。
  
  将文献的表示和查询的表示都看作是集合，通过判断文献与查询的交集是否为空来确定文献的相关性。
优点：
- 形式简洁、结构简单
缺点：
- 只是判断文献要么相关，要么不相关，无法描述与查询条件部分匹配的情况，可能导致检出文献过多或过少
向量空间模型
- 向量空间模型是通过对检出文献按相似度降序排列的方式来实现文献与查询的部分匹配。
优点：
- 标引词加权改进检索效果
- 检出与查询条件接近的文献
- 余弦公式根据文献与查询之间的相似度对文献进行排序
缺点：
- 标引词彼此之间相互独立
经典概率模型

概率模型基本思想：给定用户一个查询，存在一个文献集合，该集合只包括完全相关的文献而不包括其他不相关的文献（理想结果集）

优点：
- 根据相关概率按递减的顺序排列
缺点：
- 需要最初把文献分成相关的集合和不相关的集合；
- 不考虑标引词在文献中出现的频率；
- 假设标引词相互独立
信息检索系统的结构与评价

信息检索系统是具有信息存储和信息查询功能的一类信息服务设施（或工具）。

信息检索系统的结构可划分为两大部分：物理结构和逻辑结构。

物理结构
1. 硬件资源
  
  计算机硬件：系统中采用的各种硬件设备的总称，包括具有一定性能的计算机主机、外围设备以及与数据处理或数据传输有关的其他设备
2. 系统软件
  
  系统中有关的程序和各种文件资料的总称，包括系统软件和应用软件
3. 信息资源集合(数据库)
  
  数据库是在计算机存储设备上按一定方式存储的相互关联的数据集合
根据数据库内容的划分：
1. 指南数据库：是存储有关某些客体的一般指示性描述的一类参考数据库
2. 交易（执行）数据库：各种用于交易的数据库
3. 全文数据库：存储文献全文或其中的主要部分的源数据库
4. 书目数据库：以文档的形式组织起来的、提供书目的数据库
5. 字（词）典数据库：又称术语数据库，计算机化的术语词典或词库
6. 数值数据库：以自然数值形式表示的、计算机可读的数据集合
7. 图像数据库：提供人们存储和检索图像或图形信息及其文字说明资料的一种源数据库
对于科研人员来说，书目数据库和全文数据库使用频率最高

逻辑结构
- 信息检索系统的逻辑结构指系统所包括的功能模块或子系统及其相互关系
图：信息检索系统的逻辑结构
 信息检索系统的评价
- 信息检索系统评价的核心是检索性能评价
检索效果评价指标主要有：
- 查全率：是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例
  
  换句话说，查全率衡量的是系统在检索过程中找到了多少真正相关的文献，与数据库中所有真正相关的文献相比。
  
  这个指标的目标是尽可能高地检出所有真正相关的文献，以确保不会漏掉重要的信息。
- 查准率：是指检出文献中合乎需要的文献数量占检出文献全部数量的比例
  
  换句话说，查准率衡量的是系统在检索过程中有多少检索结果是真正相关的文献，与系统给出的全部检索结果相比。
  
  这个指标的目标是确保系统给出的检索结果是高度相关的，尽量避免出现不相关的结果。
- 漏检率：未检出的相关文献量与文献库中该种相关文献总量之比
- 误检率：检出的非相关文献数量与检出的文献总量的比率
- 新颖率：从检索系统中检出的对用户具有新颖性的相关信息量占所检出的总相关信息量的比例
- 检索速度：人们检索相关信息的快慢（时间消耗）
注意：查全率和漏检率、查准率和误检率之间存在互补关系

举例：查全率和漏检率

下面是一个用简单的例子来说明查全率和漏检率的概念：

假设在一个数据库中有100篇关于"人工智能"的文献，而你使用一个搜索引擎进行检索，并得到了一系列检索结果。你花时间仔细阅读这些文献，并确定其中有80篇与"人工智能"相关，而其他20篇与该主题无关。

在这个例子中，数据库中存在的与"人工智能"相关的文献数量是100篇，而检出的相关文献数量是80篇。

所以：查全率可以计算为相关文献数量（80篇）除以数据库中存在的相关文献数量（100篇），即80/100，得到查全率为0.8或80%，漏检率为0.2或20%

举例：查准率和误检率

下面是一个用简单的例子来说明查准率和误检率的概念：

假设你使用一个搜索引擎来搜索关于"狗的品种"的信息。搜索引擎返回了一系列文献作为检索结果。你花时间仔细阅读这些文献，并确定其中有3篇与"狗的品种"相关，而其他7篇与该主题无关。

在这个例子中，检出的文献总数是10篇，其中与"狗的品种"相关的文献数量是3篇。

所以：
- 查准率为0.3或30%。
- 误检率为0.7或 70%
举例：新颖率

下面是一个用简单的例子来说明新颖率的概念：

假设你是一名学术研究者，正在进行一项关于人工智能在医疗领域的研究。你使用一个信息检索系统来查找与人工智能在医疗诊断中的创新应用相关的文献。你输入了关键词"人工智能医疗诊断创新应用"，希望系统能够返回具有新颖性的研究成果。

在搜索结果中，系统返回了一系列的文献，你花时间逐个阅读并判断其中的新颖性。假设系统共检出了100篇相关的文献，其中有30篇具有独特的创新应用或者新颖的研究成果，而其他70篇则是关于已知应用或者常见研究成果的文献。

所以：
- 新颖率 = 30 / 100 = 0.3 = 30%
972系列文章索引
相关阅读:
【软件测试】面试老约不到？软件测试简历项目经验怎么写？论项目经验的重要性......
【Leetcode】剑指Offer 29：顺时针打印矩阵
 File 和 InputStream, OutputStream 的用法
 基于人工势场法的移动机器人路径规划研究（Matlab代码实现）
docker-compose部署三主三从redis集群
 MySQL-分组查询（ GROUP BY/WITH ROLLUP/HAVING）& SELECT原理
 GreenPlum版本升级
 uniapp实现防抖搜索
 缓存加速：精通Gradle项目依赖缓存配置
 STM32智能农田监测系统教程
原文地址：https://blog.csdn.net/YuvalNoah/article/details/128134288

972信息检索 | 第一章 信息检索概述

信息检索基本概念

信息检索的含义

信息检索的种类

信息检索的基本原理

信息检索的历史

手工检索（1876-1945）

机械信息检索（1945-1954）

脱机批处理检索（1954-1965）

联机检索（1965-1991）

网络信息检索（1991-至今）

信息检索的模型

布尔模型

向量空间模型

经典概率模型

信息检索系统的结构与评价

物理结构

逻辑结构

信息检索系统的评价

举例：查全率和漏检率

举例：查准率和误检率

举例：新颖率

972系列文章索引

972信息检索 | 第一章信息检索概述