• spacy的每个词token的所有属性


    spacy的每个词token的所有属性

    import spacy
    line="中国有四大发明"
    nlp = spacy.load('zh_core_web_sm')
    doc = nlp(line)
    #此时doc由处理后的每个词对于token组成下面给出token的属性
    #可以使用for token in doc输出这些token的属性
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    属性含义
    token.text原文本(例如:中国)
    token.tag_中国的词性,NR(专有名词)
    token.__len__()文本长度,例如中国返回值是2,有是1,四大发明是4
    token.idx出现在原文本下标,0
    token.dep_依赖关系,例如dep(系统无法识别的依赖关系)
    token.head.text依赖谁,例如这里中国依赖
    token.head.tag_依赖词的词性,例如这里的话是字VE(动词)
    token.set_extension()设置新属性,例如想设置中国是个国家可以用token.set_extension(”国家“,default=True),然后通过token._.hello访问或修改,还可以设置为简单的方法
    token.similarity(doc[2])计算相似度,例如中国token和4大发明doc[2]的相似度为0.0068
    token.nbor(2)返回后面第i个邻居
    token.children返回依赖token的其他token
    token.left返回依赖token的左边的其他token
    token.right返回依赖token的右边的其他token
    token.n_left返回依赖token的左边的其他token数量
    token.n_right返回依赖token的右边的其他token数量
    x=token.subtree返回以token为节点的依赖语法子树的所有token,可以遍历x
    token.doc输出整个原句子段落
    token.sent输出整个与token相关的原句子
    token.text_with_ws输出带尾随空格的文本,中文没有空格一般用不到
    token.orth输出id
    token.left_edge最左边的依赖词
    token.right_edge最右边的依赖词
    token.i第几个token in doc
    token.prefix_token的第一个词
    token.suffix_token的最后一个个词
    token.is_alpha返回是否是字母的bool
    token.is_ascii返回是否是ascii码
    token.is_digit返回是否是数字
    token.is_lower返回是否是小写
    token.is_upper返回是否是大写
    token.is_punct返回是否是标点符号
    token.is_left_punct返回是否为(,[,{等
    token.is_right_punct是否是右括号
    token.is_sent_start是否是句子开始
    token.is_sent_end是否是句子结束
    is_bracket是否是括号
    is_quote是否是引用
    is_currency是否是货币符号
    like_url是否是url
    like_num是否是数字
    lang_什么语言
    sentiment是积极还是消极情感
    from spacy.tokens import Doc, Span, Token
    
    fruits = ["apple", "pear", "banana", "orange", "strawberry"]
    is_fruit_getter = lambda token: token.text in fruits
    has_fruit_getter = lambda obj: any([t.text in fruits for t in obj])
    
    Token.set_extension("is_fruit", getter=is_fruit_getter)
    Doc.set_extension("has_fruit", getter=has_fruit_getter)
    Span.set_extension("has_fruit", getter=has_fruit_getter)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
  • 相关阅读:
    线程池交叉引用问题纠正
    c++的lambda表达式
    黑客嫌100万美元太少,上市企业敏感数据遭泄露
    嵌入式开发:嵌入式基础——代码和数据空间揭秘
    非零基础自学Java (老师:韩顺平) 第7章 面向对象编程(基础部分) 7.10 this关键字
    数据中心电力供应,请掌握这个技能!
    Vue Router(二)
    maven 安装本地jar失败 错误指南
    【C++】特殊类的设计(只在堆、栈创建对象,单例对象)
    【计算机网络】P1 计算机网络概念、组成、功能、分类、标准化工作以及性能评估指标
  • 原文地址:https://blog.csdn.net/a1920993165/article/details/127845192