码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 从零开始的知识图谱生活,构建一个百科知识图谱,完成基于Deepdive的知识抽取、基于ES的简单语义搜索、基于 REfO 的简单KBQA


    在这里插入图片描述

    项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户更好利用 CSDN 平台,自主完成项目设计升级,提升自身的硬实力。

    在这里插入图片描述

    1. 专栏订阅:项目大全提升自身的硬实力

    2. [专栏详细介绍:项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域)

    从零开始的知识图谱生活,构建一个百科知识图谱,完成基于Deepdive的知识抽取、基于ES的简单语义搜索、基于 REfO 的简单KBQA

    个人入门知识图谱过程中的学习笔记,算是半教程类的,指引初学者对知识图谱的各个任务有一个初步的认识。目前暂无新增计划。

    1.简介

    目标是包含百度百科、互动百科、中文wiki百科的知识,千万级实体数量和亿级别的关系数目。目前已完成百度百科和互动百科部分,其中百度百科词条4,190,390条,互动百科词条4,382,575条。转换为RDF格式得到三元组 128,596,018个。存入 neo4j中得到节点 16,498,370个,关系 56,371,456个,属性 61,967,517个。

    项目码源见文章顶部或文末

    https://download.csdn.net/download/sinat_39620217/87988980

    • 目录
      • 百度百科与互动百科的知识抽取

        • 半结构化数据
          • 百度百科爬虫
          • 互动百科爬虫
        • 非结构化数据
          • 微信公众号爬虫
          • 虎嗅网爬虫
      • 非结构化文本的知识抽取

        • 制作类似于NYT的远程监督学习语料–baidu_6w
        • 神经网络关系抽取
      • 知识存储

        • D2RQ 的使用
        • Jena 的使用
      • 知识融合

        • Silk 实战
      • KBQA

        • 基于 REfO 的简单KBQA
      • 语义搜索

        • 基于elasticsearch 的简单语义搜索 支持实体检索、实体属性检索和条件检索

    2.获取数据

    2.1 半结构化数据

    半结构化数据从百度百科和互动百科获取,采用scrapy框架,目前电影领域和通用领域两类。

    • 通用领域百科数据:百度百科词条4,190,390条,互动百科词条3,677,150条。爬取细节请见从零开始构建知识图谱(七)百科知识图谱构建(一)百度百科的知识抽取
    • 电影领域: 百度百科包含电影22219部,演员13967人,互动百科包含电影13866部,演员5931 人。项目详细介绍请见从零开始构建知识图谱(一)半结构化数据的获取

    2.2 非结构化数据

    非结构化数据主要来源为微信公众号、虎嗅网新闻和百科内的非结构化文本。

    微信公众号爬虫获取公众号发布文章的标题、发布时间、公众号名字、文章内容、文章引用来源,对应 ie/craw/weixin_spider。虎嗅网爬虫 获取虎嗅网新闻的标题、简述、作者、发布时间、新闻内容,对应 ie/craw/news_spider。

    3. 非结构化文本的知识抽取

    3.1 基于Deepdive的知识抽取

    Deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取系统。它通过弱监督学习,从非结构化的文本中抽取结构化的关系数
    据 。本次实战基于OpenKG上的[支持中文的deepdive:斯坦福大学的开源知识抽取工具(三元组抽取)](http://www.openkg.cn/ dataset/cn-deepdive),我们基于此,抽取电影领域的演员-电影关系。

    详细介绍请见从零开始构建知识图谱(五)Deepdive抽取演员-电影间关系

    3.2 神经网络关系抽取

    利用自己的百科类图谱,构建远程监督数据集,并在OpenNRE上运行。最终生成的数据集包含关系事实18226,无关系(NA)实体对336 693,总计实体对354 919,用到了462个关系(包含NA)。

    详细介绍请见从零开始构建知识图谱(九)百科知识图谱构建(三)神经网络关系抽取的数据集构建与实践

    4.结构化数据到 RDF

    结构化数据到RDF由两种主要方式,一个是通过direct mapping,另一个通过R2RML语言这种,基于R2RML语言的方式更为灵活,定制性强。对于R2RML有一些好用的工具,此处我们使用d2rq工具,它基于R2RML-KIT。

    详细介绍请见从零开始构建知识图谱(二)数据库到 RDF及 Jena的访问

    5.知识存储

    5.1 将数据存入 Neo4j

    图数据库是基于图论实现的一种新型NoSQL数据库。它的数据数据存储结构和数据的查询方式都是以图论为基础的。图论中图的节本元素为节点和边,对应于图数据库中的节点和关系。我们将上面获得的数据存到 Neo4j中。

    百科类图谱请见:从零开始构建知识图谱(八)百科知识图谱构建(二)将数据存进neo4j

    电影领域的请见从零开始构建知识图谱(六)将数据存进Neo4j

    6.KBQA

    6.1 基于 REfO 的简单KBQA

    基于浙江大学在openKG上提供的 基于 REfO 的 KBQA 实现及示例,在自己的知识图谱上实现简单的知识问答系统。

    详细介绍请见从零开始构建知识图谱(三)基于REfO的简单知识问答

    • 示例

    语义搜索

    基于elasticsearch 的简单语义搜索

    本项目是对浙大的 基于elasticsearch的KBQA实现及示例 的简化版本,并在自己的数据库上做了实现。

    详细介绍请见从零开始构建知识图谱(四)基于ES的简单语义搜索

    • 示例

    项目码源见文章顶部或文末

    https://download.csdn.net/download/sinat_39620217/87988980

  • 相关阅读:
    结构体和共用体
    spinal HDL - 11 - 使用状态机语法编写“1001“序列检测
    【Node.js】定时任务cron:
    TechEmpower 21轮Web框架 性能评测 -- C# 的性能 和 Rust、C++并驾齐驱
    Net6Configuration & Options 源码分析 Part3 IOptionsMonitor 是如何接收到配置文件变更并同步数据源的
    LeetCode 0952.按公因数计算最大组件大小:建图 / 并查集
    已解决:conda找不到对应版本的cudnn如何解决?
    大咖说·对话生态|当Confluent遇见云:实时流动的数据更有价值
    查看libc版本
    软考高级-系统架构师-软件架构设计练习题
  • 原文地址:https://blog.csdn.net/sinat_39620217/article/details/131641815
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号