• 8 月份 Github 上最火的10篇 AI 论文!


    d288606dd4aa3fa11bf64d6bfc685891.png

    文 | 天于刀刀

    不晓得各位同学在看论文的时候最关注的是什么?也许是论文的创新点,或是被引用的数量,还是...是不是自带代码!

    重要的事说三遍!复现,复现,还是复现!(ーー゛)

    为了方便各位同学愉快地在学习的海洋中遨游,Reddit 上的一位老哥整理了2022年8月 Github 上最热门的 AI 项目 [1],感谢 bycloudai 的贡献。

    以下所有项目排名均基于 Github Stars,它们分别是:

    fa2357c187a6013c58f8c521cc8d3ed1.jpeg
    1. 文字生成图片,但是个性化

    2. 预训练语言图像模型在视频识别中的应用

    3. 扩散生成模型的原理是?

    4. int8 加速大语言模型推理,性能无损!

    5. 低资源下使用分散式数据蒸馏进行联邦学习

    6. PeRFception:感知任务大规模隐式数据集

    7. 用图像来训练视频分割模型,MinVIS 减少了标注和内存成本

    8. SawSing:一种歌声合成声码器模型

    9. 机器人的公园漫步

    10. LCCDE:自动驾驶系统中的网络安全守护者

    01 文字生成图片,但是个性化

    作者基于潜在扩散模型(Latent Diffusion Models, LDM),允许用户使用自然语言指导 AI 生成包含特定独特概念的图像。

    例如我想将心爱的宠物猫咪变成一幅独特的画作——抽象派猫猫,只需要提供3-5张照片,然后通过控制自然语言输入,来得到一个我家猫咪的抽象画作。

    简单介绍下过程:首先,模型会通过学习这些图片,使用一些单词去表示图片。其次,这些单词可以组合成自然语言句子,通过 prompt 形式指导模型进行个性化创作。

    好处在于,图像的自然语言表示对用户非常友好。用户可以自由修改 prompt 内容以获取他们想要的风格、主题和独一无二的结果。

    项目地址:
    https://github.com/rinongal/textual_inversion
    论文地址:
    https://arxiv.org/abs/2208.01618

    02 预训练语言图像模型在视频识别中的应用

    微软大佬的项目。在这项工作中,作者通过将预训练的语言图像模型(pretrained language-image models)调整为视频识别,以此将对比语言图像预训练方法(contrastive language-image pretraining)扩展到视频领域。

    作者为了捕捉视频中帧沿时间维度的远程依赖性,提出了一个跨帧的注意力机制,明确了跨帧的信息交换。此外该模块非常轻量化,可以无缝插入预训练的语言图像模型。

    项目地址:
    https://github.com/microsoft/videox
    论文地址:
    https://arxiv.org/abs/2208.02816

    03 扩散生成模型的原理是?

    标准的扩散模型(diffusion models)涉及到图像变换(添加高斯噪声)和图像反转。但是作者观察到,扩散模型的生成并不强烈依赖于图像降解的选择。

    在这个项目中,作者通过实验证明了基于完全确定性的降解(例如模糊、masking 等),也可以轻松训练一个扩散生成模型。

    这个工作成功地质疑了社区对扩散模型的理解:它并非依赖于梯度郎之万动力学(gradient Langevin dynamics)或变分推理(variational inference)。

    项目地址:
    https://github.com/arpitbansal297/cold-diffusion-models
    论文地址:
    https://arxiv.org/abs/2208.09392

    04 int8 加速大语言模型推理,性能无损!

    标题说明一切。

    该项目主要聚焦于大语言模型(LLM)的量化过程,开发了一个用于前馈和注意力投射层的 int8 矩阵乘法程序,减少了一半的内存,并且保持了完全的精度性能。

    这使得大模型更加亲民,例如现在我们可以在消费级显卡上使用 OPT-175B/BLOOM 模型。(显卡禁令福音)

    项目地址:
    https://github.com/TimDettmers/bitsandbytes
    论文地址:
    https://arxiv.org/abs/2208.07339

    05 低资源下使用分散式数据蒸馏进行联邦学习

    数据集蒸馏(dataset distillation)是通过合成小型数据集,以便其训练的模型可以在原始大数据集上实现高性能的任务。

    一个好的小数据集不仅对理解数据有作用,而且可以辅助持续学习(continual learning)、隐私、神经网络搜索等。

    这个项目梳理了非常详细的数据集蒸馏技术的发展脉络,以及在隐私、联邦学习、持续学习、模型压缩、知识蒸馏等等领域的应用论文。感兴趣的同学可以从此入手。

    项目地址:
    https://github.com/Guang000/Awesome-Dataset-Distillation
    论文地址:
    https://arxiv.org/abs/2208.11311

    06 PeRFception:感知任务大规模隐式数据集

    最近神经辐射场(Neural Radiance Fields, NeRF)在隐式 3D 表示中实现了一种准确又逼真且可微的方式。这种新的表示可以以一种紧凑的格式,有效传达数百张高分辨率图像的信息。

    作者建立了第一个用于感知任务的大规模隐式表示数据集(PeRFception),并且提出一种新的增强技术,以避免过拟合图像背景。

    项目地址:
    https://github.com/POSTECH-CVLab/PeRFception
    论文地址:
    https://arxiv.org/abs/2208.11537

    07 用图像来训练视频分割模型,MinVIS 减少了标注和内存成本

    前几年,字节跳动的大佬在视频识别的领域中开辟了新的任务:视频实例分割(Video Instance Segmentation, VIS),就是把视频帧的每一个实例分割出来。

    有别于传统的基于视频的训练架构,MinVIS 将视频中的帧视为独立图像,然后通过对应查询的二分匹配来跟踪实例。

    因此 MinVIS 在实验中取得了降低标注成本和内存要求的实际优势,同时没有牺牲 VIS 的性能。

    项目地址:
    https://github.com/nvlabs/minvis
    论文地址:
    https://arxiv.org/abs/2208.02245

    小贴士[2]:在视频领域中还有一个视频目标分割任务(Video Object Segmentation, VOS)。它和 VIS 任务的主要区别在于,VOS是会在第一帧中给出需要 track&segment 的 object 的 mask 的,但是这些 object 是 class-agnostic 的,任务目标是在接下来的视频中 track&segment 出第一帧中的标注 objects。VIS任务是有一个已知的 class set,你需要在 video 中把属于这些 class 的 instance 都给detect 出来并在整个视频中 track&segment 出来。

    08 SawSing:一种歌声合成声码器模型

    声码器是一种条件音频生成模型,他将梅尔频谱(mel-spectrogram)等声学特征转换为波形。

    受到可微数字信号处理(differentiable digital signal processing)的启发,SawSing 可以生成连续的歌声,而不会像许多现有编码器那样出现不连续的故障。

    此外,实验证明 SawSing 支持在少量数据上训练,并且可以在资源受限的情况下更快地收敛。

    项目地址:
    https://github.com/yatingmusic/ddsp-singing-vocoders
    论文地址:
    https://arxiv.org/abs/2208.04756

    09 机器人的公园漫步

    并非是在实验室的模拟环境,而是在真实的室内外地形中,作者采用强化学习和机器人控制器相结合的方法,在短短20分钟内成功让机器人学会四足行走。

    (听上去有点像教狗狗学走路?)

    项目地址:
    https://github.com/ikostrikov/walk_in_the_park
    论文地址:
    https://arxiv.org/abs/2208.07860

    10 LCCDE:自动驾驶系统中的网络安全守护者

    自动驾驶和物联网是最近非常火热的领域,然而随着车辆互联网(Internet of Vehicles, IoV)的日益增长,对于网络安全的保护也越来越重要。

    作者提出了一个识别恶意网络攻击的入侵检测系统,基于 XGBoost、LightGBM 和 CatBoost 来构建的。

    项目地址:
    https://github.com/Western-OC2-Lab/Intrusion-Detection-System-Using-Machine-Learning
    论文地址:
    https://arxiv.org/abs/2208.03399

    16843b63b7a865a0d0678b3668d9093d.png

    卖萌屋作者:天于刀刀

    注重 WLB 的工业界反卷斗士,未进化的 NLP 咸鱼一条。专注于研究在各个场景中算法模型的落地情况,希望自己编写的算法有朝一日可以改变世界。目前的兴趣点在于:假新闻检测、深度学习模型可解释性等。

    作品推荐

    1.腾讯薪酬改革来了!晋升≠加薪?员工到底为何工作?

    2.从 Google AI 离职了,这里让我爱不起来

    3.百万悬赏!寻找“模型越大,效果越差”的奇葩任务!

    4.想通这点,治好 AI 打工人的精神内耗

    52c68fa86245f83db6720b24c7dc309c.jpeg后台回复关键词【入群

    加入卖萌屋NLP、CV、搜广推与求职讨论群

    8ca576c92d8a282eb3b67293db807402.png
    [1] Most Popular AI Research Aug 2022 pt.2 - Ranked Baed On Github Stars, https://www.reddit.com/r/learnmachinelearning/comments/x48r9g/most_popular_ai_research_aug_2022_pt_2_ranked/
    [2] Video Instance Segmentation 阅读,https://zhuanlan.zhihu.com/p/78096960
  • 相关阅读:
    1031 Hello World for U
    SAP 控制VA02修改客户地址是否同步修改参考关联的销售订单
    浅析Nordic nRF5 SDK例程架构
    【Handler机制分析】
    Mybatis完整版详解
    大数据-玩转数据-Flume
    透过生产车间看板洞悉生产制造企业的生产关键指标
    LeetCode-672. 灯泡开关 Ⅱ【穷举,位运算】
    微服务博客专栏汇总
    力扣第454题 四数相加 || c++哈希map使用
  • 原文地址:https://blog.csdn.net/xixiaoyaoww/article/details/126736951