码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 文章主要内容提取软件[基于NLP技术]


     利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。

     

    One: TextRank(extract keywords and extract abstract)
    TextRank 算法是一种用于文本的基于图的排序算法,用来提取文本关键词与摘要。其基本思想来源于谷歌的 PageRank算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。下面先介绍PageRank*算法。*
     

     

    word文档怎么才可以 自动生成 目录 和自动提取摘要?

    自动创建摘要的步骤如下:

    (1)单击【工具】菜单中的【自动编写摘要】菜单项。Word 就 会开始自动编写摘要,要取消正在执行的摘要,可按下Esc 键。命令完成后会出现如图6-41 所示的【自动编写摘要】对话框。

    (2)在【摘要类型】下面选择文档的显示方案。

    (3)在【相当于原长的百分比】框中键入或选择摘要的详细程 度。

    (4)如果要更新文档的统计信息,请选中【更新文档统计信息】 复选框。

    自动生成目录步骤:

    点格式>>样式与格式,会在页面右方出现格式选择框,你点右方最上面的>>新样式>>在弹出框的名称里填一级标题,样式类型里选段落,样式基于里面选标题1,后续段落里选正文,然后在下面根据你的要求设置好标题文字的字体、字号、段前段后空余多少磅等。在这个窗口最下面还有一排同时保存到模板选项,如果你今后的文档也打算用这个样式的话你就点上保存到模板,如果以后还是会有变动的话就不要勾选了。点确定,你的一级标题格式就设置好了。这时在样式和格式框里就多添加了一个样式名子叫“一级标题”。

    回到你的文章,把你文章的一级标题,就是你的第几章这样的标题挨个选中点右边样式框里的“一级标题”就会和你刚才设置的一样了。

    以同样的方式设置你的二级和三级标题,取名二级标题基于标题2,三级标题基于标题3这样,并回到正文逐个应用。

    把你的所有标题格式设置好以后,光标回到你文章之前,点插入-引用-目录,设置目录显示级别为3,这样你的目录就生成了,目录里包括你三级标题以上包括三级标题的所有标题。

    生成目录之前把你的文档结构图打开在左方显示,这里可以明显看到你的文章的结构,这个结构就是你自动生成目录的基础,如果你的文档结构图是乱的的话,自动生成的目录就是乱的。

    python有哪些提取文本摘要的库

    一篇文章的内容可以是纯文本格式的,但在网络盛行的当今,更多是HTML格式的。无论是哪种格式,摘要 一般都是文章 开头部分 的内容,可以按照指定的 字数 来提取。

    二、纯文本摘要

    纯文本文档 就是一个长字符串,很容易实现对它的摘要提取:

    #!/usr/bin/env python。

    # -*- coding: utf-8 -*-。

    """Get a summary of the TEXT-format document"""。

    def get_summary(text, count):。

    u"""Get the first `count` characters from `text`。

    >>> text = u'Welcome 这是一篇关于Python的文章'。

    >>> get_summary(text, 12) == u'Welcome 这是一篇'。

    True

    """

    assert(isinstance(text, unicode))。

    return text[0:count]。

    if __name__ == '__main__':。

    import doctest。

    doctest.testmod()。

    三、HTML摘要

    HTML文档 中包含大量标记符(如

    、

    、等等),这些字符都是标记指令,并且通常是成对出现的,简单的文本截取会破坏HTML的文档结构,进而导致摘要在浏览器中显示不当。

    在遵循HTML文档结构的同时,又要对内容进行截取,就需要解析HTML文档。在Python中,可以借助标准库 HTMLParser 来完成。

    一个最简单的摘要提取功能,是忽略HTML标记符而只提取标记内部的原生文本。以下就是类似该功能的Python实现:

    #!/usr/bin/env python。

    # -*- coding: utf-8 -*-。

    """Get a raw summary of the HTML-format document"""。

    from HTMLParser import HTMLParser。

    class SummaryHTMLParser(HTMLParser):。

    """Parse HTML text to get a summary。

    >>> text = u'

    Hi guys:

    This is a example using SummaryHTMLParser.

    '。

    >>> parser = SummaryHTMLParser(10)。

    >>> parser.feed(text)。

    >>> parser.get_summary(u'...')。

    u'

    Higuys:Thi...

    '。

    """

    def __init__(self, count):。

    HTMLParser.__init__(self)。

    self.count = count。

    self.summary = u''。

    def feed(self, data):。

    """Only accept unicode `data`"""。

    assert(isinstance(data, unicode))。

    HTMLParser.feed(self, data)。

    def handle_data(self, data):。

    more = self.count - len(self.summary)。

    if more > 0:。

    # Remove possible whitespaces in `data`。

    data_without_whitespace = u''.join(data.split())。

    self.summary += data_without_whitespace[0:more]。

    def get_summary(self, suffix=u'', wrapper=u'p'):。

    return u'<{0}>{1}{2}'.format(wrapper, self.summary, suffix)。

    if __name__ == '__main__':。

    import doctest。

    doctest.testmod()。

    HTMLParser(或者 BeautifulSoup 等等)更适合完成复杂的HTML摘要提取功能,对于上述简单的HTML摘要提取功能,其实有更简洁的实现方案(相比 SummaryHTMLParser 而言):

    #!/usr/bin/env python。

    # -*- coding: utf-8 -*-。

    """Get a raw summary of the HTML-format document"""。

    import re

    def get_summary(text, count, suffix=u'', wrapper=u'p'):。

    """A simpler implementation (vs `SummaryHTMLParser`).。

    >>> text = u'

    Hi guys:

    This is a example using SummaryHTMLParser.

    '。

    >>> get_summary(text, 10, u'...')。

    u'

    Higuys:Thi...

    '。

    """

    assert(isinstance(text, unicode))。

    summary = re.sub(r'<.*?>', u'', text) # key difference: use regex。

    summary = u''.join(summary.split())[0:count]。

    return u'<{0}>{1}{2}'.format(wrapper, summary, suffix)。

    if __name__ == '__main__':。

    import doctest。

    doctest.testmod()。

    EXCEL如何从无规则的摘要中提取姓名

    先复制要提取的区域,

    然后把那一列的宽度拉到一个字的大小。

    在点填充——两端对齐,效果如图。

    点数据——分列——下一步——下一步——完成。

    点查找——定位条件——常量——只勾选【文本】

    都那很长的一列,右击,然后点删除——下方单元格上移,效果如图。

    最后把只有一个字宽的那一列拉宽一点,数字就显示出来了。

    怎样提取内容摘要 10

    你要是需要自己写的话,你需要了解一些pdf文档里的基础结构(可以参考PDF Reference 8.8).这些你要的信息都在catalog\info对象里. 有需要帮助可以加我.88998888。

    从用友中导出的excel明细账中摘要如何提取部门项目?

    看你这数据好像是有规律的 都是 "-"符号间隔的吧,使用分列一次就搞定。

    工具兰-数据-分列-分隔符号-‘下一步’-‘其他’-输入 分隔符 "-"(提示不要带引号,我这是为了强调而已),下一步就搞定了。

  • 相关阅读:
    STM32解析航模遥控器的PPM信号
    Redis 的存储数据类型及其内部结构
    记录:移动设备软件开发(Android项目组织结构)
    CSS3基础
    Chapter8:控制系统状态空间分析
    高通道筛选出的小分子 应用到伊蚊“控制”
    如何开发Vite3插件构建Electron开发环境
    最小生成树专题1 最小生成树-Prim算法
    【计算机组成&体系结构】整数的表示和运算 | 原码、反码和补码
    云计算 - 对象存储服务OSS技术全解
  • 原文地址:https://blog.csdn.net/mynote/article/details/125991875
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号