码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Py之fasttext:fasttext的简介、安装、案例应用之详细攻略


    Py之fasttext:fasttext的简介(类似CBoW模型)、安装、案例应用之详细攻略

    目录

    fasttext的简介

    1、fasttext的原理

    2、fasttext的功能

    fasttext的安装

    fasttext的案例应用

    1、Word representation model

    2、Text classification model


    fasttext的简介

    背景

    应用fasttext是Facebook开发的一款快速文本分类器。fasttext是一个用于高效学习单词表示和句子分类的库。

    简介

    fasttext原理有点类似于Word2Vec中CBoW模型,fasttext在是实现分类任务中采用了Hierarchical Softmax,突出了两个特性:

    (1)、Word2Vec是在输入层得到词向量,输出层对应的 Herarchical Softmax 也会生成一系列的向量,但最终都不会使用。而fastText的输出层对应是分类的label,目的是遍历分类树的所有叶节点,找到概率最大的label。

    (2)、Word2Vec的输入是上下文窗口内的词,而fasttext对应的整个文本,包括周边词和 N-Gram的内容。

    特点

    (1)、有监督性:fasttext是利用带有监督标记的文本分类数据完成训练。

    (2)、速度快:fasttext的网络结构与CBOW基本一致,其最大优势在于预测速度。在一些分类数据集上,fasttext通常可以把要耗时几小时甚至几天的模型训练大幅压缩到几秒钟。

    Github官网:
    GitHub - facebookresearch/fastText: Library for fast text representation and classification.

    文档:
    Get started · fastText

    1、fasttext的原理

         fasttext原理有点类似于Word2Vec中CBoW模型,fastText在是实现分类任务中采用了Hierarchical Softmax,突出了两个特性:
    (1)、Word2Vec是在输入层得到词向量,输出层对应的 Herarchical Softmax 也会生成一系列的向量,但最终都不会使用。而fastText的输出层对应是分类的label,目的是遍历分类树的所有叶节点,找到概率最大的label。
    (2)、Word2Vec的输入是上下文窗口内的词,而fasttext对应的整个文本,包括周边词和 N-Gram的内容。

    2、fasttext的功能

    (1)、Word representation learning
    (2)、Obtaining word vectors for out-of-vocabulary words
    (3)、Text classification

    fasttext的安装

    pip install fasttext

    fasttext的案例应用

    案例应用:https://pypi.org/project/fasttext/

    fasttext:文本分类、训练词向量、词向量迁移_あずにゃん的博客-CSDN博客_pytorch word2vec

    1、Word representation model

    1. import fasttext
    2. # Skipgram model :
    3. model = fasttext.train_unsupervised('data.txt', model='skipgram')
    4. # or, cbow model :
    5. model = fasttext.train_unsupervised('data.txt', model='cbow')
    6. print(model.words) # list of words in dictionary
    7. print(model['king']) # get the vector of the word 'king'
    8. model.save_model("model_filename.bin")
    9. model = fasttext.load_model("model_filename.bin")

    2、Text classification model

    1. import fasttext
    2. model = fasttext.train_supervised('data.train.txt')
    3. print(model.words)
    4. print(model.labels)
    5. def print_results(N, p, r):
    6. print("N\t" + str(N))
    7. print("P@{}\t{:.3f}".format(1, p))
    8. print("R@{}\t{:.3f}".format(1, r))
    9. print_results(*model.test('test.txt'))
    10. model.predict("Which baking dish is best to bake a banana bread ?")
    11. model.predict("Which baking dish is best to bake a banana bread ?", k=3)
    12. model.predict(["Which baking dish is best to bake a banana bread ?", "Why not put knives in the dishwasher?"], k=3)

  • 相关阅读:
    openssl交叉编译 (ubuntu+arm)
    在 SPRING Boot JPA 中调用带有本机查询中的参数的存储过程
    stm32 iap sd卡升级
    LeetCode LCP 06. 拿硬币【贪心,数学】简单
    最新OPPO 真我手机 一加手机 使用adb命令永久关闭系统更新教程
    17. 最小化可变性
    rv1126-rv1109-驱动方法
    初识OpenGL (-)VAO顶点数组对象
    结构体内存对齐
    【总结】助力2022年全国大学生数学建模 — 预测模型总结篇(万字总结)
  • 原文地址:https://blog.csdn.net/qq_41185868/article/details/127893718
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号