码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • hanlp,pyhanlp 实现 NLP 任务


    目录

    区别

    hanlp 代码使用

    pyhanlp 代码使用


    在线体验:命名实体识别 | 在线演示

    区别

    • hanlp:是 githun 官方文档提供的使用方法,也就是在线的,调用 api 的方式去实现的,可以自己申请 token,接口分为 RESTful 轻量级,native 海量级

    GitHub - hankcs/HanLP: 中文分词 词性标注 命名实体识别 依存句法分析 成分句法分析 语义依存分析 语义角色标注 指代消解 风格转换 语义相似度 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁转换 自然语言处理

     

    • pyhanlp:为 hanlp 的一个封装,可以理解为离线的,不需要调 api

    Hanlp、pyhanlp 的区别是什么? - #2 由 Viserion - 综合讨论 - HanLP中文社区

    hanlp 代码使用

    使用它的话,可能不能链科学上网,要不然连不上,我切断后就正常了,要是什么任务,点对应任务链接,有示例调用代码的:

     

    pyhanlp 代码使用

    1. from pyhanlp import *
    2. # 分词
    3. sentence = "我爱自然语言处理技术!"
    4. s_hanlp = HanLP.segment(sentence)
    5. for term in s_hanlp:
    6. print(term.word, term.nature)
    7. # 依存句法分析
    8. s_dep = HanLP.parseDependency(sentence)
    9. print(s_dep)
    10. # 关键词提取
    11. document = u'''
    12. 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。
    13. 它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
    14. 自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
    15. 因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,
    16. 所以它与语言学的研究有着密切的联系,但又有重要的区别。
    17. 自然语言处理并不是一般地研究自然语言,
    18. 而在于研制能有效地实现自然语言通信的计算机系统,
    19. 特别是其中的软件系统。因而它是计算机科学的一部分。
    20. '''
    21. doc_keyword = HanLP.extractKeyword(document, 3)
    22. for word in doc_keyword:
    23. print(word)
    24. # 摘要抽取
    25. doc_keysentence = HanLP.extractSummary(document, 3)
    26. for key_sentence in doc_keysentence:
    27. print(key_sentence)
    28. # 感知机词法分析器
    29. PerceptronLexicalAnalyzer = JClass('com.hankcs.hanlp.model.perceptron.PerceptronLexicalAnalyzer')
    30. analyzer = PerceptronLexicalAnalyzer()
    31. print(analyzer.analyze("上海华安工业(集团)公司董事长谭旭光和秘书胡花蕊来到美国纽约现代艺术博物馆参观"))
    32. # 实体命名识别
    33. NER = HanLP.newSegment().enableNameRecognize(True)
    34. p_name = NER.seg('王国强、高峰、汪洋、张朝阳光着头、韩寒、小四')
    35. print(p_name)
    36. # 音译人名识别
    37. sentence = '微软的比尔盖茨、Facebook的扎克伯格跟桑德博格、亚马逊的贝索斯、苹果的库克,这些硅谷的科技人'
    38. person_ner = HanLP.newSegment().enableTranslatedNameRecognize(True)
    39. p_name = person_ner.seg(sentence)
    40. print(p_name)
    41. # 短语提取
    42. phraseList = HanLP.extractPhrase(document, 3)
    43. print(phraseList)
    44. # 拼音转换
    45. s = '重载不是重任'
    46. pinyinList = HanLP.convertToPinyinList(s)
    47. for pinyin in pinyinList:
    48. print(pinyin.getPinyinWithoutTone(),pinyin.getTone(), pinyin, pinyin.getPinyinWithToneMark())
    49. # 声母韵母
    50. for pinyin in pinyinList:
    51. print(pinyin.getShengmu(), pinyin.getYunmu())
    52. # 繁简转换
    53. Jianti = HanLP.convertToSimplifiedChinese("我愛自然語言處理技術!")
    54. Fanti = HanLP.convertToTraditionalChinese("我爱自然语言处理技术!")
    55. print(Jianti)
    56. print(Fanti)

  • 相关阅读:
    【Terminal】Mac给Terminal添加快捷键(Ctrl-Alt-T) & 通过几行js节省平常重复性的工作
    关于kafka-python的若干问题
    基于jsp+mysql+ssm大学本科考研服务系统-计算机毕业设计
    乌班图22.04 kubeadm简单搭建k8s集群
    大数据之hadoop hive hbase 的区别是什么?有什么应用场景?
    如何使用Docker构建前端项目
    SpringBoot缓存之Ehcache详解
    wxpython设计GUI:grid控件实现显示表单数据功能,同时实现界面的上下翻页以及跳转功能
    【面试题】绝对定位和相对定位
    【尘缘赠书活动第四期】推荐几本架构师成长和软件架构技术相关的好书,助你度过这个不太景气的寒冬!
  • 原文地址:https://blog.csdn.net/zjkpy_5/article/details/136666719
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号