• 972信息检索 | 第二章 信息检索的方法和技术


    第二章 | 信息检索的方法和技术

    信息检索的主要目的是在最短的时间内获得最满意的检索结果

    网络信息检索的基本方法

    • 布尔逻辑检索

      逻辑AND(或*)表示

      逻辑OR(或,或)表示

      逻辑““用NOTAND NOTBUT NOT)(或-)表示

      优先次序:逻辑““ > 逻辑”” > 逻辑”“,若有括号存在,则括号优先

    • 邻近检索(位置限制检索)

      是用一些特定的算符(位置算符)来表达检索词与检索词之间的顺序和词间距的检索

    • 短语检索(精确检索)

      使用“ “表示

    • 截词检索

      是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分(常见截词符:?、*、!)

    • 字段限制检索

      在信息检索的过程中,为了提高查全率和查准率,需要将检索范围限制在特定的字段中,如AB 代表文摘

    • 括号检索

      用于改变运算的先后次序,括号内的运算优先

    • 自然语言检索(智能检索)

      直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样

    • 多语种检索

      提供多语种的检索环境供用户选择,系统按照用户选定的语种进行检索并反馈结果

    • 模糊检索

      是指使用某一检索词进行检索时,能同时对该词的同义词、近义词、上位词、下位词进行检索

    • 区分大小写的检索

      搜索工具认为用户指定了只要大写,就只会查找哪些与用户键入的输入形式完全相同的结果,如China,则只检索出China

    信息检索的主要技术

    • 全文检索技术

      全文检索技术是将一个完整信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合

      特点:

      1. 信息量大,未经加工的详尽的、客观的原始信息;
      2. 信息检索的灵活性和适应性;
      3. 文本中任何字符或字符串都可以作为检索入口点,且能够处理结构化和非结构化等各类文本数据;
      4. 检索语言的天然性,支持使用自然语言进行检索;
      5. 数据相对稳定

      缺点:查准率较低,检索结果过多,让用户较难甄别高价值信

    • 多媒体信息检索技术

      音频的检索方式:1)语音检索;2)音乐检索;3)音频检索

      视频的检索方式:1)视频分割;2)关键帧提取;3)场景变换探测;4)故事情节重构

    • 超文本及超媒体检索技术

      把有关的信息或资源通过超链接联系起来,检索时可以借助超链接实现相关信息的阅读

    • 智能信息检索技术

      采用人工智能进行信息检索的技术(可进行语义处理)

    • 可视化信息检索技术

      是将信息资源、用户提问、信息检索模型、检索过程以及检索结果中各种不可见的内部语义关系转换成图像,显示在一个二维、三维或多维的可视化空间中,帮助用户理解检索结果、把握检索方向,以提高信息检索的效率和性能。

    • 跨语言信息检索技术

      允许用户使用其熟悉的某一种语言来构造检索式,以此检索出另外一种或集中语言表达的信息。
      跨语言信息检索技术实现的核心问题是“翻译”

    • 文本聚类技术

      聚类:在对应的特征空间的亲疏远近来决定其类别

      自动聚类技术用来分析被聚类对象的特征,再根据一定的聚类算法将这些对象分成不同的簇

    信息检索的技巧

    信息检索的流程

    检索策略:是为实现检索目标而制定的全盘计划,是就一个问题检索或多个数据库输入的全部检索式的集合

    分析信息需求
    了解查询目的和要求
    确定关键词
    确定学科/主题/地域/语种/时间范围
    确定信息类别
    确定查询方式
    确定资源性质
    • 了解所要查询的目的和要求

      明确你进行信息检索的目的是什么,确定你希望获得什么样的信息。例如,你是在进行学术研究还是解决实际问题,你需要的是基础知识还是最新的研究成果。

    • 确定检索问题的关键词

      确定与你的查询问题相关的关键词或术语

    • 确定涉及的学科或主题范围、地域范围、语种范围、资源的时间范围

      这些限定条件将有助于缩小检索范围,提高检索结果的相关性。

    • 确定需要的信息类别

      明确你所需要的信息类别有助于针对性地选择合适的资源和数据库。

    • 确定查询方式(浏览、分类检索、关键词检索)

      你可以通过浏览资源的目录或索引、进行分类检索或使用关键词检索等方式来获取相关信息。

    • 确定资源的性质(学术?大众化?)

      有助于选择适合的信息源和数据库

    选择合适的检索工具
    检索工具
    检索大众化主题
    搜索引擎
    Google或百度等
    期刊论文
    中外文期刊数据库
    CNKI
    WOS等
    背景与术语
    在线百科全书
    专业词典等
    图书出版信息
    联合目录
    图书馆馆藏目录OPAC
    WorldCat等
    1. 检索大众化的主题:
      • 使用常见搜索引擎如Google、百度等进行关键词搜索。
      • 可以尝试使用不同的搜索词组合、加上限定词或使用高级搜索选项来缩小搜索范围。
    2. 查找期刊论文:
      • 首选CNKI、Elsevier等中外文期刊数据库
    3. 查找背景与概况信息术语:
      • 访问在线百科全书(如维基百科)
      • 专业词典网站等
    4. 查找图书的出版信息:
      • 可利用各图书馆的馆藏目录(OPAC)、WorldCat等联合目录
    确定检索点与检索词
    • 检索词:用户或检索人员检索时输入的字、词、短语或字符,用于查找含有它(它们)的记录
    • 关键词:指那些出现在文献的标题、关键词、摘要或正文中,对表达文献主题内容具有实质性意义的词
    避免抽象或模糊
    获取更广泛的相关结果
    扩大检索范围
    使用引号
    复杂的检索需求
    选择关键词
    使用名词或物体
    控制关键词数量
    2-3个
    截词检索
    利用OR
    专有名词大写字母表示
    精确检索
    使用括号分组

    选择关键词的建议:

    1. 使用名词或物体作为关键词
      • 选择与所需信息主题相关的名词或物体作为关键词。
      • 避免使用过于抽象或模糊的词语。
    2. 检索式中使用2-3个关键词为宜
      • 选择2-3个最具代表性和关键性的词语作为关键词。
      • 避免关键词过多导致检索结果过于杂乱。
    3. 使用截词检索
      • 可使用词根、词干或词首进行截词检索,以获取更广泛的相关结果。
      • 适用于需要涵盖相关变体词形的情况。
    4. 利用OR连接同义词、近义词、相关词或同一术语的不同表达方式
      • 将具有相同或相似意义的词语使用OR连接,以扩大检索范围。
      • 适用于不同词汇表达方式或不同学科领域的术语。
    5. 专有名词使用大写字母指定检索
      • 对于专有名词或特定的术语,使用大写字母进行检索以保证准确性。
    6. 对固定短语,用“ ”进行精确检索
      • 对于固定短语或特定的词组,使用双引号将其包围,以精确检索相关内容。
    7. 用括号将各个概念分开
      • 对于复杂的检索需求,可以使用括号将不同概念或条件进行分组,以确保逻辑正确性。
    正确构造检索式
    1. 检索式:又称检索提问表达式,是检索策略的具体体现,是要求检索系统执行的检索语句
    2. 有效检索的基础:充分利用搜索工具支持的检索运算,允许使用的检索标识、各种限定
    3. 避免漏检的有效做法:
    • 对于每个概念,尽可能列举其同义词、近义词、相关词甚至上位词和下位词。
    • 使用布尔逻辑运算符OR将这些词语连接起来形成子检索式。
    • 使用适当的布尔逻辑运算符将所有子检索式连接起来形成总检索式,即“积木型检索式”。

    下面是一个关于积木型检索式的简单应用:

    假设我们想要查找关于高血压(hypertension)和心血管疾病(cardiovascular disease)之间的关联的学术文献。我们可以使用以下的"积木型检索式"来进行构造检索式:

    (高血压 OR hypertension) AND (心血管疾病 OR cardiovascular disease)
    
    • 1
    及时调整检索策略
    扩大检索范围
    1. 使用布尔逻辑运算符 “OR”:
      • 将相关的同义词、近义词、相关词用 “或” 连接,以扩大检索范围。
    2. 降低检索词的专指度:
      • 使用更一般化的词汇,避免过于具体的专业术语,以便检索到更多相关文献。
    3. 减少使用布尔逻辑运算符 “AND” 连接最不重要的检索词:
      • 将主要关键词使用 “AND” 连接,而辅助词或次要关键词可以不使用 “AND”,以避免过于严格的检索限制。
    4. 去掉布尔逻辑运算符 “NOT”,取消某些限制:
      • 取消不必要的限制条件,如文献类型、出版年、语种等,以扩大检索结果的范围。
    5. 使用分类号进行族性检索:
      • 利用图书馆分类系统的分类号进行检索,以查找与特定主题相关的文献。
    6. 使用截词检索:
      • 使用关键词的部分词根进行检索,以包含更多变体和衍生词。
    7. 利用检索工具提供的 “自动扩检” 功能进行相关检索:
      • 使用搜索引擎或数据库的自动扩展检索功能,以获取与查询相关的额外信息。
    8. 使用多个检索工具进行检索:
      • 使用多个搜索引擎或数据库进行并行检索,以增加检索结果的覆盖范围。
    9. 使用元搜索引擎:
      • 使用元搜索引擎,它可以同时在多个搜索引擎或数据库中进行检索,并将结果整合在一起。
    10. 使用信息资源的整合平台检索来自不同提供方的各种数据库:
      • 利用信息资源整合平台,可以通过单一的检索界面同时搜索多个不同提供方的数据库,以获取更全面的信息。
    缩小检索范围
    1. 使用逻辑 “OR” 连接更多的关键词:
      • 以缩小检索范围并获得更精确的结果。
    2. 使用逻辑 “NOT” 把不需要查找的关键词排除在检索结果之外:
      • 以过滤掉与检索目标无关的文献。
    3. 使用位置限制检索:
      • 在检索中指定关键词出现的位置,如标题、摘要、正文等,以获取与特定位置相关的文献。
    4. 使用字段限制检索:
      • 在检索中指定关键词出现的字段,如作者、标题、主题词等,以缩小检索范围和提高准确性。
    5. 使用短语检索进行精确检索:
      • 使用引号将多个关键词组成短语,以进行精确匹配,获得与短语相关的文献。
    6. 使用缩写与全称:
      • 对于专业术语或常用缩写,同时使用缩写和全称进行检索,以确保涵盖不同的表达方式。
    7. 利用检索工具的进阶检索功能:
      • 使用搜索引擎或数据库提供的进阶检索功能,如二次检索、Refine、Search again等,以进一步细化和优化检索结果。
    8. 限制查询范围:
      • 在检索中限制查询范围,如地域范围、时间范围、网站类型范围、文件类型等,以筛选出符合特定条件的文献。
    检索结果的输出
    1. 输出方式

      显示、复制、打印、下载、Email发送、输入到参考文献管理软件或个人信息管理软件

    2. 输出形式

      目录、题录、文摘、全文或自定义形式、选择性输出

    972系列文章索引

  • 相关阅读:
    如何安装西门子PLC设备
    SAP-MM/QM 移动原因维护
    用OKR工作法让2023年的自己的薪酬翻倍
    有哪些适合程序员做的副业?
    JavaScript 62 JavaScript 版本 62.7 Internet Explorer - Edge
    ZCC5429 异步升压芯片
    数据结构——常见链表算法题
    论文阅读【4】Product-based Neural Networks for User Response Prediction
    计算机网络------静态路由与配置
    如何正确的中断线程?你的姿势是否正确
  • 原文地址:https://blog.csdn.net/YuvalNoah/article/details/128134374