码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 自然语言处理从零到入门 文本挖掘


    文本挖掘 – Text mining

    • 一、什么是文本挖掘?
    • 二、文本挖掘的5个步骤
    • 三、7种文本挖掘的方法
    • 参考

    网络上存在大量的数字化文本,通过文本挖掘我们可以获得很多有价值的信息。

    本文将告诉大家什么是文本挖掘,以及他的处理步骤和常用的处理方法。


    一、什么是文本挖掘?

    每到春节期间,买火车票和机票离开一线城市的人暴增——这是数据

    再匹配这些人的身份证信息,发现这些人都是从一线城市回到自己的老家——这是信息

    回老家跟家人团聚,一起过春节是中国的习俗——这是知识

    上面的例子是显而易见的,但是在实际业务中,有很多不是那么显而易见的信息,比如:

    • 每周末流量会有规律性的上升或者下降,这是为什么?
    • 国庆长假,使用 iPad 购物比例比平时要高,这时为什么?
    • …

    而文本挖掘的意义就是从数据中寻找有价值的信息,来发现或者解决一些实际问题。
    在这里插入图片描述
    维基百科:
    文本挖掘,也称为文本数据挖掘,大致相当于文本分析,是从文本中获取高质量信息的过程。高质量信息通常是通过统计模式学习等手段设计模式和趋势而得出的。文本挖掘通常涉及构造输入文本的过程(通常解析,添加一些派生的语言特征和删除其他特征,然后插入到数据库中),在结构化数据中导出模式,最后评估和解释输出。文本挖掘中的“高质量”通常是指相关性,新颖性和兴趣的某种组合。典型的文本挖掘任务包括文本分类,文本聚类,概念/实体提取,粒度分类法的生成,情感分析,文档摘要和实体关系建模(即,命名实体之间的学习关系)。

    文本分析涉及信息检索,词汇分析以研究词频分布,模式识别,标记 / 注释,信息提取,数据挖掘技术,包括链接和关联分析,可视化和预测分析。最重要的目标是通过应用自然语言处理(NLP)和分析方法将文本转换为数据进行分析。 典型的应用是扫描以自然语言编写的一组文档,并为文档集建模以用于预测分类目的,或者用提取的信息填充数据库或搜索索引。



    二、文本挖掘的5个步骤

    文本挖掘大致分为以下5个重要的步骤。
    在这里插入图片描述
    文本挖掘的5个步骤:

    1. 数据收集
    2. 文本预处理
    3. 数据挖掘和可视化
    4. 搭建模型
    5. 模型评估


    三、7种文本挖掘的方法

    在这里插入图片描述

    • 关键词提取: 对长文本的内容进行分析,输出能够反映文本关键信息的关键词。
    • 文本摘要: 许多文本挖掘应用程序需要总结文本文档,以便对大型文档或某一主题的文档集合做出简要概述。
    • 聚类: 聚类是未标注文本中获取隐藏数据结构的技术,常见的有 K均值聚类和层次聚类。更多见 无监督学习
    • 文本分类: 文本分类使用监督学习的方法,以对未知数据的分类进行预测的机器学习方法。
    • 文本主题模型 LDA: LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。
    • 观点抽取: 对文本(主要针对评论)进行分析,抽取出核心观点,并判断极性(正负面),主要用于电商、美食、酒店、汽车等评论进行分析。
    • 情感分析: 对文本进行情感倾向判断,将文本情感分为正向、负向、中性。用于口碑分析、话题监控、舆情分析。


    参考

    文本挖掘 (维基百科)
    NLP(1)— 初识文本挖掘 (jianshu)
    文本数据分析:文本挖掘还是自然语言处理?(csdn)
    用 Python 做文本挖掘的流程 (zhihu)
    Python英文文本预处理:步骤、使用工具及示例 (csdn)
    以虎嗅网4W+文章的文本挖掘为例,展现数据分析的一整套流程 (jiqizhixin)
    文本挖掘 – Text mining (easyai)

  • 相关阅读:
    uvm简介
    facebook分享-错误记录
    使用SylixOS虚拟串口,实现系统串口自由
    Docker安装RabbitMQ并安装延迟插件
    React-18(组件化开发)--ref与react过渡动画
    idea 本地项目上传到 Git 步骤
    使用DeepSpeed加速大型模型训练(二)
    三星泄露微软 Copilot 新功能:用自然语言操控各种功能
    三、组件与数据交互
    【leetcode】【2022/9/11】857. 雇佣 K 名工人的最低成本
  • 原文地址:https://blog.csdn.net/weixin_44225602/article/details/127729364
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号