码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 关于推特社交机器人数据集(来自上一篇论文)


            论文论文阅读 - A Deep Learning Approach for Robust Detection of Bots in Twitter Using Transformers_努力学习中....的博客-CSDN博客社交机器人论文阅读 - A Deep Learning Approach for Robust Detection of Bots in Twitter Using Transformershttps://blog.csdn.net/qq_40671063/article/details/126114489A Deep Learning Approach for Robust Detection of Bots in Twitter Using Transformers论文阅读 - A Deep Learning Approach for Robust Detection of Bots in Twitter Using Transformers_努力学习中....的博客-CSDN博客社交机器人论文阅读 - A Deep Learning Approach for Robust Detection of Bots in Twitter Using Transformershttps://blog.csdn.net/qq_40671063/article/details/126114489

    介绍的数据集

            在过去的几年里,通过社交媒体平台(如 Twitter、 Facebook 或 Instagram)传播错误信息的指数增长促进了应用研究,以便发现并防止这类内容在这些网络中的入侵。因此,很明显,人工智能(AI)在这个话题中扮演着至关重要的角色,以支持这些平台,根据一组特定的描述符或特征,从而自动通知或限制对那些看起来可疑的账户的访问。

            举个例子,2019年,推特不得不删除了超过2.6万个账户,因为他们被怀疑传播虚假信息和/或不适当的内容。那么,问题是,人工智能如何支持终端用户检测可疑账户?

            该数据集由超过30K行组成,对应于来自Twitter的不同用户帐户。每行包含两列:Tweet ID和指示其类别(bot或human)的标签。

            以前的调查和数据集都来自这个机器人仓库(Bot Repository),它专注于这个主题。

            该数据集由 37438 行组成,对应于 Twitter 中的不同用户帐户。每行包含帐户的 Twitter ID 和目标变量。

            目标变量被表示为account_type,并且具有惟一的值(bot或human)。更具体地说,25013个用户帐户被注释为人类帐户,而其余12425个是机器人帐户。

            数据集可以从Twitter Bots Accounts | Kaggle 网站下载,是更新后的账户(删除已经失效了的账户): 。

            该数据集是由一组小型数据集组成的,这些数据集来自此前对Twitter可疑账户的调查。更具体地说,这些数据集有Twitter用户账户的标识符列表,以及一个标签,表示该账户是机器人还是人类。为了生成这个数据集,使用标识符在整个Twitter API中搜索和检索用户帐户的数据。因此,提出的数据集是一个更紧凑和更完整的版本,以提高分析。此外,那些不再属于Twitter的帐户将从数据集中删除,其余用户的数据将根据检索时的数据进行更新(13-07-2020)。

            还可以下载经过Twitter API收集后的账户,下载链接为:bots_accounts_eda | Kaggle, 此数据集由37438行组成,这些行对应于 Twitter 中的不同用户帐户。每行包含20列,这些列是通过 Twitter API 收集的特性。

            目标变量被表示为account_type,并且具有惟一的值(bot或human)。更具体地说,25013个用户帐户被注释为人类帐户,而其余12425个是机器人帐户。

     

     

  • 相关阅读:
    【C++】-还在玩普通的类吗,这里面有好几种特殊的类的设计,快进来看看
    ArkID 一账通:企业级开源IDaaS/IAM平台系统
    Linux:keepalived 双热备份(基础备份web)
    Dart的基本数据类型详解 int double String bool List Maps
    微信小程序生命周期与内置api
    STC单片机+EC11编码器实现调节PWM输出占空比
    线程池相关总结
    React简介
    递归实现指数型枚举(DAY 91)
    Leetcode 第 361 场周赛题解
  • 原文地址:https://blog.csdn.net/qq_40671063/article/details/126133312
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号