文本处理的应用有:
一些常见的文本处理/NLP 应用:
• 信息检索
• 信息提取/文本挖掘
• 文本分类
• 自动总结
• NL 生成
• 机器翻译
应用:IR
信息检索(IR):关注开发算法和从文本集中检索相关文档的模型。
•文本集合 = 一些“文档”集
最初,数百/千电子存储文件,例如期刊论文摘要;现在,WWW上有数十亿页
• 查询:用户指示她/他想要什么
通常,只有 2 或 3 个词
• 如何确定哪些文档是相关的?
如何确定一种方法是否比另一种更好?
• 仍有许多工作留给用户:
选择哪些返回的文档是相关的任务,提取相关信息的任务
应用:IE
IR 与信息提取 (IE) 形成对比。
IE 识别文档中的特定信息,使其可用到后续的自动化流程
它必须提前确定要提取的类型信息
提取的信息通常包括提及(1)实体(例如组织、个人、地点)和 (2)关系(例如,人员受雇于组织)
它识别的信息可以是:
提取并存储在结构化记录中,例如数据库系统(有时称为“知识库人口”)