码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 如何将原始按照word为单位索引标识的数据集修改为以char单位


    目录

    问题描述:

    问题解决:


    问题描述:

    原始数据集中,数据的标注是以word为单位,且计数从1开始的。如下图:

    如何修改为以char为单位的,从0开始计数的数据格式:

    问题解决:

    1. # 将英文数据集中,原本按照word存储的数据集,按照char格式存储,处理成与中文一样的格式
    2. path = '/home/qtxu/Sentiment-SPN/data/Camera-COQE/dev.txt'
    3. path_w = '/home/qtxu/Sentiment-SPN/data/Camera-COQE/dev_char.txt'
    4. from pdb import set_trace as stop
    5. def obtain_index(cur_ele): # '[10&&would 11&¬ , 17&&difference]' ## '[10&¬ , 16&&clearer]' ##[13&&did 14&&n't , 20&&as 21&&well 22&&as]
    6. len_ele = len(cur_ele)
    7. if ' ,' in cur_ele: # 针对几个带有逗号的特殊处理
    8. start_index = cur_ele.find(',')
    9. cur_ele = '['+cur_ele[start_index+2:]
    10. if len_ele == 2:
    11. index_list = []
    12. span_str = ''
    13. return index_list,span_str
    14. else:
    15. cur_ele = cur_ele[1:-1]
    16. # try:
    17. index_list = [int(ele.split('&&')[0])-1 for ele in cur_ele.split(' ')]
    18. span_str = ' '.join(ele.split('&&')[1] for ele in cur_ele.split(' '))
    19. # except:
    20. # stop()
    21. return index_list, span_str
    22. def word_to_char(sentence, span, span_index):
    23. if len(span)==0:
    24. return '[]'
    25. else:
    26. span_start_index = span_index[0]
    27. front_str = ' '.join(sentence.split(' ')[:span_start_index])
    28. span_len = len(front_str)
    29. result_str = ""
    30. if span_start_index == 0:
    31. i = 0
    32. else:
    33. i = 1
    34. for char in span:
    35. start_index = span_len + i
    36. cur_char = f"{start_index}&&{char} "
    37. result_str += cur_char
    38. i += 1
    39. # 移除末尾的空格
    40. result_str = '['+result_str.rstrip()+']'
    41. return result_str
    42. with open(path, 'r') as fr, open(path_w, 'w') as fw:
    43. lines = fr.readlines()
    44. for line in lines:
    45. try:
    46. sent, label = line.strip().split('\t')
    47. fw.write(line)
    48. except:
    49. if '[[];[];[];[];[]]' in line:
    50. fw.write(line)
    51. else:
    52. # stop()
    53. cur_line = line.strip()[1:-1]
    54. sub,obj,asp,op,polarity = cur_line.split(';')
    55. sub_index, sub_span = obtain_index(sub)
    56. obj_index, obj_span = obtain_index(obj)
    57. asp_index, asp_span = obtain_index(asp)
    58. op_index, op_span = obtain_index(op)
    59. sub_char= word_to_char(sent, sub_span,sub_index)
    60. obj_char= word_to_char(sent, obj_span,obj_index)
    61. asp_char= word_to_char(sent, asp_span,asp_index)
    62. op_char= word_to_char(sent, op_span,op_index)
    63. char_quintuple = '['+ str(sub_char) + ';' + str(obj_char) +';'+ str(asp_char) +';'+str(op_char) +';' + polarity + ']'
    64. # polarity
    65. fw.write(char_quintuple+'\n')
    66. # print(sub_char)

  • 相关阅读:
    实验语音学的基本概念
    308节---------6月26日
    新版WordPress插件短视频去水印小程序源码
    【人工智能Ⅰ】实验1:谓词表示法与产生式知识表示
    [vue3+elementuiplus]el-select下拉框会自动触发校验规则的最强解决方案
    深入了解Java 8 新特性:Stream流的实践应用(一)
    01-基于imx6ul从0自制Bootloader专栏实现总结
    Java线程任务 创建一个单独的任务线程并提交到线程池中执行 案例
    保存业务的修改记录(对象字段差异对比)
    Go 事,Gopher 要学的数字类型,变量,常量,运算符 ,第2篇
  • 原文地址:https://blog.csdn.net/weixin_41862755/article/details/133255072
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号