1. 基于规则
在命名实体识别研究的初始阶段的主要采用的方法是基于规则的方法。基本原理是通过分析命名实体在文本中的特征,人工构造规则模板实现命名实体识别。
应用基于规则方法比较成功的英文命名实体识别系统的是纽约大学的 Proteus.。该系统在进行命名实体识别时,召回率、精确率和F-值分别为86%、90%和 88.19%。
在中文命名实体识别中,基于规则的系统也不少。谭红叶等4对中国人名、中国地名和外国译名进行整体识别,使用动态规划方法实现最佳路径的搜索以提高效率,较好地解决了识别过程的冲突问题。通过对真实语料的测试,对中国地名的正确率和召回率分别达到92.3%和 76.6%。
2. 自然语言处理
自然语言处理(Natural Language Processing,NLP)是指计算机对自然语言所做的分析。由于自然语言文本的歧义性,目前实现计算机对自然语言处理的实用性还不是很强的。在人与人的交流中,我们自觉不自觉的使用了大量的知识进行推理以消除其中的歧义。要将人类这些知识较完整地加以收集和整理,并应用于计算机系统以有效地消除歧义,还有许多工作需要我们去完成。
3. 命名实体识别
命名实体识别(Named Entity Recognition,NER)是信息处理技术中消除自然语言
文本存在的歧义性的重要技术,是信息抽取、机器翻译、信息检索和问答系统等领域的基础技术。目前,命名实体识别在一些领域已经得到了应用,例如复旦大学正在修订“二十四史”的工作中,就使用了人名地名识别系统,提高了校正效率。
4. 地名
地名,人们赋予某一特定空间位置上自然或人文地理实体的专有名称。地名命名的意义通常认为是地名的字面所表达的含义,它是人们为地命名时的着眼点,或者叫命名的因由或理据。
5. 文献研究法
通过调查相关文献获得资料并对其进行研究分析,先对要采用的技术进行由浅入深,由易到难,由简到繁的学习和巩固,然后对系统进行分析,并重视研究已有的案例。
6. 案例分析法
通过了解目前市场上已有的基于规则的中文地名识别系统的功能,了解其优点和缺点,再根据这些设计出更完善的基于规则的中文地名识别系统。
7. 对比分析法
利用该方法将设计的系统与其它系统进行相对比,及时发现不足之处,并通过社会实践对比与实际需求的差距,不断改进与完善。