import pandas as pd
# 将标签词一个一个换成集合,去重,方便进行后续的循环操作
words =set(pd.read_excel(r"C:\Users\Administrator\Desktop\标签词.xlsx").iloc[:,0].to_list())print(words)# 读取需要打标签的表
df1 = pd.read_excel(r"C:\Users\Administrator\Desktop\表.xlsx")
flag =[]# 循环表的for row in df1[["标题","简介"]].values:
tags =set()for txt in row:for word in words:if word in txt:
tags.add(word)
tag =",".join(tags)
flag.append(tag)
df1['flag']= flag
df1.head()# 如果不想要没有标签词的,直接删掉空即可# df1 = df1[df1["flag"].notna()]# df2 = df1[df1['flag'] !=""]# df2.head()
import pandas as pd
words =set(pd.read_excel(r"C:\Users\Administrator\Desktop\标签词.xlsx").iloc[:,0].to_list())
df1 = pd.read_excel(r"C:\Users\Administrator\Desktop\表.xlsx")
flag =[]for row in df1[["标题","简介"]].values:
tags =set()for txt in row:for word in words:if word in txt:
tags.add(word)
tag =",".join(tags)if tag:
flag.append(tag)else:
flag.append(None)
df1['flag']= flag
df1.dropna(inplace=True)
df1.head()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
id
标题
简介
发布日期
flag
1
13
红霉素软膏吃了会怎样
红霉素软膏吃下去一般不会对身体产生影响,红霉素软膏主要成分是红霉素,辅助成分是黄凡士林、软质...
2022-06-05
红霉素
2
14
红色痘印变成褐色是快好了吗
痘印由红色变为褐色多是由于炎症刺激后导致的色素沉着,提示痘痘正在愈合。红色痘印是由于痘痘多伴...
2022-06-06
痘印
3
15
腋窝下有个疙瘩有臭味
腋窝下有个疙瘩有臭味可能是肿大的淋巴结导致的,也有可能是皮脂腺囊肿引起的,应查找具体病因,再...
2022-06-07
皮脂腺囊肿
4
19
怎么确定疥疮是否好了
疥疮是否好转可以提高皮肤表现和临床症状是否得到控制确定,当皮肤淡色或红褐色硬结节会逐渐消退,...
2022-06-08
瘙痒,疥疮
6
21
银屑病过了青春期会好吗
银屑病是一种慢性炎症性皮肤病,病程较长,有易复发倾向,有的病例几乎终生不愈,由于该病病因复杂...
2022-06-10
慢性炎症,银屑病
二、判断人工打的标签词是否正确
import pandas as pd
import numpy as np
df = pd.read_excel(r"C:\Users\Administrator\Desktop\表.xlsx")
df1 = pd.read_excel(r"C:\Users\Administrator\Desktop\标签词.xlsx")
df.head(5)
1
2
3
4
5
id
标题
简介
发布日期
标签词
0
1
我只是测试第三种方法
emmmmmmm
2022-06-01
测试
1
13
红霉素软膏吃了会怎样
红霉素软膏吃下去一般不会对身体产生影响,红霉素软膏主要成分是红霉素,辅助成分是黄凡士林、软质...
2022-06-05
红霉素
2
14
红色痘印变成褐色是快好了吗
痘印由红色变为褐色多是由于炎症刺激后导致的色素沉着,提示痘痘正在愈合。红色痘印是由于痘痘多伴...
2022-06-06
痘印
3
15
腋窝下有个疙瘩有臭味
腋窝下有个疙瘩有臭味可能是肿大的淋巴结导致的,也有可能是皮脂腺囊肿引起的,应查找具体病因,再...
2022-06-07
疙瘩
4
19
怎么确定疥疮是否好了
疥疮是否好转可以提高皮肤表现和临床症状是否得到控制确定,当皮肤淡色或红褐色硬结节会逐渐消退,...
2022-06-08
疥疮
l_=[]for value in df.itertuples():
bq = value.标签词
if bq notin df1.标签词.tolist():
queryid = value.id
title = value.标题
descr = value.简介
dt = value.发布日期
three ="错误"
l_.append((queryid,title,descr,bq,dt,three))else:
queryid = value.id
title = value.标题
descr = value.简介
dt = value.发布日期
three ="正确"
l_.append((queryid,title,descr,bq,dt,three))
dff = pd.DataFrame(l_)
dff.columns =["id","标题","简介","标签","发布日期","是否正确"]
dff.head()