你好! 这是一款实体关系联合标注的本地小程序,以 P y t h o n 3 Python3 Python3 实现。本系统是一种标注文本语料中命名实体与关系或属性的半自动化软件系统,应用 P y t h o n Python Python编程实现可视化界面和主要功能,利用 H T M L HTML HTML和 C S S CSS CSS提示标注教程与规范(无需关心它们如何实现)。
利用本系统进行文本标注将原始段落文本更新为带有事先定义的命名实体、关系或属性的文本标签数据。通过自动分配快捷键、背景色将不同实体在文本中进行区分,并生成固定格式文本呈现在标注界面。选中固定符号,将实体对之间标注关系,自动生成关系序号、关系类别以及头尾实体序号。执行导出生成一对一的文本和标签结果,通过格式化、撤销、取消标注等功能实现标注的更新。本系统帮助自然语言处理的标注专家对文本中实体或实体关系进行提取,导出结果用作机器训练、知识图谱构建等方向。
主要功能: 主要功能实现文本命名实体标注、实体间关系标注。

在 b i a o z h u biaozhu biaozhu文件夹中,有 c o n f i g s configs configs、 i m a g e s images images、 u t i l s utils utils三个文件夹,并且有 b i a o z h u . p y biaozhu.py biaozhu.py、 l o g i n . p y login.py login.py、 r e c o d e _ 1. p y recode\_1.py recode_1.py、 r e c o d e _ 2. p y recode\_2.py recode_2.py、 注册器 . p y 注册器.py 注册器.py 共5个 P y t h o n Python Python代码文件。
本系统通过
W
i
n
d
o
w
s
Windows
Windows、
P
y
t
h
o
n
3.7
Python3.7
Python3.7 开发。在运行代码之前,你需要检查你的
P
y
t
h
o
n
Python
Python本地环境是否具备下面这些工具,其中一些必备 python科学库。
# Windows python3.7
ast、tkinter、platform、collections、json、re、time、PIL、webbrowser、os、sys、datetime;
自定义命名实体、关系,则需要在两处修改。第1处是 c o n f i g s configs configs文件夹、第2处是 b i a o z h u . p y biaozhu.py biaozhu.py文件中。
在
c
o
n
f
i
g
s
configs
configs文件夹中,包含
e
n
t
i
t
y
.
c
o
n
f
i
g
entity.config
entity.config和
r
e
l
a
t
i
o
n
.
c
o
n
f
i
g
relation.config
relation.config两个文件,通过文本文件的方式即可打开。

例如
e
n
t
i
t
y
.
c
o
n
f
i
g
entity.config
entity.config中,存储了命名实体字典,键为键盘上的快捷键,值为具体的命名实体。比如选中一段文本,按下键盘上的
a
a
a即可将选中的文本标注为
d
i
s
dis
dis这种实体。
r
e
l
a
t
i
o
n
.
c
o
n
f
i
g
relation.config
relation.config中,自定义关系,与之类似。

在
b
i
a
o
z
h
u
.
p
y
biaozhu.py
biaozhu.py文件中,构造两个字典
d
i
c
t
1
dict1
dict1,
d
i
c
t
2
dict2
dict2,分别表示键盘快捷键到命名实体,命名实体英文简写到键盘快捷键两个映射。

通过上面两个步骤的成功修改,即可将本工具用作你自己的本地化任务。(你可以尝试在这里将两个步骤并为一个步骤)









在标注过程中,如果需要返回到上一步或者返回之前多步,可以点击右侧菜单栏的“撤销”,即可撤销。如果在标注完成后,发现需要取消标注某一实体或者关系,需要用鼠标选中待取消标注段,键入快捷键,即可取消标注,防止格式错误,取消标注后剩余文本将固定在原始位置。
选中文本

选择撤销

点击 导出 即可将标注文件导出到本地,导出的内容样式即当前页面所看见的样式(并没有解析为三元组后再导出,因为这样可以方便下次继续标注),文件存储的位置和导入文件位置在同一目录下。也可以选择“导出并退出系统”即可导出文件并且退出系统,导出的文件会以读取文件名+用户信息+导出时间三者整体作为文件名保存在本地。如果无需导出文件直接退出,点击右上侧系统关闭按钮,会提示保存文件,即可退出系统。




自动生成五元组表格,方便快速导入
N
e
o
4
j
Neo4j
Neo4j图库、
S
Q
L
S
e
r
v
e
r
SQL Server
SQLServer、
M
y
S
Q
L
MySQL
MySQL结构化数据库。

生成的一对一适合下游任务标签。(你可以更改
r
e
c
o
d
e
_
2.
p
y
recode\_2.py
recode_2.py, 以调整标签生成规则)

在标注过程中,如果需要查看标注教程、KG规范和标注规范,点击右侧菜单栏按钮,即可自动打开HTML网页查看信息。由于涉及到知识成果,文件夹中的
K
G
规范
.
h
t
m
l
KG规范.html
KG规范.html 以及
标注规范
.
h
t
m
l
标注规范.html
标注规范.html 我会提供空白文件,但不会影响到你正常使用。

如果键入了无效快捷键或者未选中文本,系统右上侧会提示当前状态。例如:未选中文本、无效快捷键、导入成功、导出失败、配置信息有误等。当原始文本为PDF、图片、表格等形式存在,需要通过自定义转换器转换成文本文档,再进一步通过上面步骤进行标注。

获取程序包,以下方式皆可:
鉴于之前大家提到的各种各样的需求,请查看下面的文章,或许会帮助到大家,倘若链接失效,可以到播客主页查找。
1、 recode_2.py文件更新代码!(https://blog.csdn.net/AdamCY888/article/details/130747036)
2、utils文件夹下 colors.py 更新和colors_1.py 更新更新((https://blog.csdn.net/AdamCY888/article/details/130747230))
感谢 芳樽里的歌 的工作,其将开源标注工具 Y E D D A YEDDA YEDDA 移植到了 P y t h o n 3 Python3 Python3 。
本文的标注工具是在 芳樽里的歌 基础上的改进优化版本。