ShowMeAI日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向。点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击 这里 回复关键字 日报 免费获取AI电子月刊与资料包。
8月11日,雷军在2022年度『穿越人生低谷的感悟』演讲中提到,小米自动驾驶技术的最新进展正式对外公布,采用全栈自研算法的技术布局策略,能力覆盖高速、城区、停车场等场景,并有创新性的泊车服务一体化方案。
小米仿生机器人首亮相,CyberOne『大脑』聪明,能感知45种人类语义情绪,分辨85种环境语义;『小脑』发达,小米自研全身控制算法,协调运动21个关节自由度;『视觉』敏锐,Mi Sense视觉空间系统,三维重建真实世界;『四肢』强健,全身5种关节驱动,峰值扭矩300Nm。
https://github.com/NVIDIAGameWorks/kaolin-wisp
NVIDIA Kaolin Wisp 是一个 PyTorch 库,为神经领域(包括 NeRF、NGLOD、instant-ngp 和 VQAD)研究提供一组常用的实用函数,包括数据集、图像 I/O、网格处理和光线实用功能,还附带了用于构建复杂神经域的可微渲染器、可微数据结构等模块。
https://github.com/inkeliz/karmem
Karmem 是一种快速的二进制序列化格式,经过优化后发挥了 Golang、TinyGo 的最大性能,并对于可重复读取、读取相同类型的不同内容非常有效,极好地平衡了速度和易用性。Karmem 比 Google Flatbuffers 快十倍。
https://github.com/alibaba/EasyNLP
https://www.yuque.com/easyx/easynlp/ds35qn
PAI 团队推出了 EasyNLP 中文 NLP 算法框架,具备易用且兼容开源、大模型小样本落地技术、大模型知识蒸馏技术等特性,有效解决了大模型在运用于实际场景中面临的挑战——模型参数量过大、数据量不足、泛化性等挑战。
https://github.com/open-mmlab/ecosystem
https://openmmlab.com/codebase
本项目用于收录使用了OpenMMLab体系的开源项目。
https://github.com/drogonframework/drogon
Drogon 是一个基于C++14/17的 Http 应用框架,可以快速构建各种类型的 Web 应用服务端程序,支持Linux、macOS、FreeBSD,OpenBSD,HaikuOS 和 Windows 等操作系统。
https://github.com/kuutsav/information-retrieval
信息检索(Information Retrieval)是计算机系统响应用户对特定主题基于文本的信息查询过程,是自然语言处理领域最早且仍然最重要的问题之一。Repo 包含了当前可用于信息检索的技术教程,并拓展到了模型技术/指标、近似最近邻技术和矢量数据库等。
https://www.pair.toronto.edu/csc2547-w21/schedule
本课程『CSC 2547 Current Topics in Machine Learning Methods in 3D and Geometric Deep Learning』介绍深度学习方法和 3D 视觉技术的表示、学习算法和生成模型,并将研究深度学习相关的几何深度学习、流形学习等概念,以及 3D 特性在图形、机器人、内容创建、混合现实、生物识别等领的诸多潜在应用。
https://github.com/JingfengYang/Multi-modal-Deep-Learning
https://github.com/deepmind/streamingqa
可以点击 这里 回复关键字日报,免费获取整理好的论文合辑。
科研进展
- 2022.07.25 『计算机视觉』 NeuriCam: Video Super-Resolution and Colorization Using Key Frames
- 2022.04.14 『计算机视觉』 Masked Siamese Networks for Label-Efficient Learning
- 2022.07.27 『计算机视觉』 GAUDI: A Neural Architect for Immersive 3D Scene Generation
- 2022.07.22 『计算机视觉』 Neural-Sim: Learning to Generate Training Data with NeRF
论文标题:NeuriCam: Video Super-Resolution and Colorization Using Key Frames
论文时间:25 Jul 2022
所属领域:计算机视觉
对应任务:Colorization,Super-Resolution,Total Energy,Video Super-Resolution,着色,超分辨率,视频超分辨率
论文地址:https://arxiv.org/abs/2207.12496
代码实现:https://github.com/vb000/neuricam
论文作者:Bandhav Veluri, Ali Saffari, Collin Pernu, Joshua Smith, Michael Taylor, Shyamnath Gollakota
论文简介:Our idea is to design a dual-mode camera system where the first mode is low power (1. 1~mW) but only outputs gray-scale, low resolution and noisy video and the second mode consumes much higher power (100~mW) but outputs color and higher resolution images./我们的想法是设计一个双模式摄像机系统,其中第一模式是低功率(1.1mW),但只输出灰度、低分辨率和有噪声的视频,第二模式消耗更高的功率(100mW),但输出彩色和高分辨率的图像。
论文摘要:我们提出了NeuriCam,一个基于关键帧的视频超分辨率和色彩化系统,以实现双模式物联网相机的低功耗视频捕获。我们的想法是设计一个双模式摄像机系统,其中第一模式是低功率(1.1mW),但只输出灰度、低分辨率和嘈杂的视频;第二模式消耗更高的功率(100mW),但输出彩色和高分辨率的图像。为了减少总的能量消耗,我们对高功率模式进行了严重的占空比,使其每秒钟只输出一次图像。然后,来自该摄像系统的数据被无线传输到附近的一个插入式网关,在那里我们运行实时神经网络解码器,以重建更高分辨率的彩色视频。为了实现这一目标,我们引入了一个注意力特征过滤器机制,根据每个空间位置的特征图和输入帧的内容之间的相关性,给不同的特征分配不同的权重。我们使用现成的相机设计了一个无线硬件原型,并解决了包括丢包和视角不匹配等实际问题。我们的评估表明,我们的双摄像头硬件降低了摄像头的能耗,同时比先前的视频超级分辨率方法获得了3.7dB的平均灰度PSNR增益,比现有的颜色传播方法获得了5.6dB的RGB增益。代码可在 https://github.com/vb000/NeuriCam 获取。
论文标题:Masked Siamese Networks for Label-Efficient Learning
论文时间:14 Apr 2022
所属领域:计算机视觉
对应任务:Image Classification,Self-Supervised Image Classification,Self-Supervised Learning,Semi-Supervised Image Classification,图像分类,自监督图像分类,自监督学习,半自监督图像分类
论文地址:https://arxiv.org/abs/2204.07141
代码实现:https://github.com/facebookresearch/msn
论文作者:Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas
论文简介:We propose Masked Siamese Networks (MSN), a self-supervised learning framework for learning image representations./我们提出了掩码孪生网络(MSN),一个用于学习图像表征的自监督学习框架。
论文摘要:我们提出了掩码孪生网络(MSN),一个用于学习图像表征的自监督学习框架。我们的方法是将包含随机遮蔽块的图像视图的表征与原始未遮蔽图像的表征相匹配。这种自监督的预训练策略在应用于视觉Transformer时特别具有可扩展性,因为网络只处理未被遮蔽的块。因此,MSNs提高了联合嵌入架构的可扩展性,同时产生了高语义水平的表征,在低照度图像分类中表现出竞争性。例如,在ImageNet-1K上,只有5,000张注解的图像,我们的基础MSN模型达到了72.4%的最高准确率,而在ImageNet-1K的1%的标签下,我们达到了75.7%的最高准确率,为这个基准的自监督学习设定了一个新的先进水平。我们的代码是公开可用的。
论文标题:GAUDI: A Neural Architect for Immersive 3D Scene Generation
论文时间:27 Jul 2022
所属领域:计算机视觉
对应任务:Scene Generation,场景生成
论文地址:https://arxiv.org/abs/2207.13751
代码实现:https://github.com/apple/ml-gaudi
论文作者:Miguel Angel Bautista, Pengsheng Guo, Samira Abnar, Walter Talbott, Alexander Toshev, Zhuoyuan Chen, Laurent Dinh, Shuangfei Zhai, Hanlin Goh, Daniel Ulbricht, Afshin Dehghan, Josh Susskind
论文简介:We introduce GAUDI, a generative model capable of capturing the distribution of complex and realistic 3D scenes that can be rendered immersively from a moving camera./我们推出了GAUDI,这是一个能够捕捉复杂而逼真的3D场景分布的生成模型,可以从移动的摄像机中进行沉浸式渲染。
论文摘要:我们推出了GAUDI,这是一个能够捕捉复杂而逼真的3D场景分布的生成模型,可以从移动的摄像机中进行沉浸式渲染。我们用一种可扩展但强大的方法来解决这个具有挑战性的问题,我们首先优化一个潜在的表征,将辐射场和摄像机的位置分开。然后,这个潜像表示被用来学习一个生成模型,该模型能够无条件和有条件地生成三维场景。我们的模型通过消除摄像机姿势分布可以在不同样本中共享的假设,概括了以前关注单一物体的工作。我们表明,GAUDI在多个数据集的无条件生成设置中获得了最先进的性能,并允许在给定条件变量(如稀疏的图像观测或描述场景的文本)的情况下有条件地生成三维场景。
论文标题:Neural-Sim: Learning to Generate Training Data with NeRF
论文时间:22 Jul 2022
所属领域:计算机视觉
对应任务:object-detection,Object Detection,目标检测
论文地址:https://arxiv.org/abs/2207.11368
代码实现:https://github.com/gyhandy/neural-sim-nerf
论文作者:Yunhao Ge, Harkirat Behl, Jiashu Xu, Suriya Gunasekar, Neel Joshi, Yale Song, Xin Wang, Laurent Itti, Vibhav Vineet
论文简介:However, existing approaches either require human experts to manually tune each scene property or use automatic methods that provide little to no control; this requires rendering large amounts of random data variations, which is slow and is often suboptimal for the target domain./然而,现有的方法要么需要人类专家手动调整每个场景属性,要么使用几乎不提供控制的自动方法;这需要渲染大量的随机数据变化,很慢而且对于目标领域来说往往是次优的。
论文摘要:训练计算机视觉模型通常需要在一组不同的场景配置和属性下收集和标记大量的图像。这个过程非常耗时,而且要确保采集的数据分布能够很好地映射到应用场景的目标域,这是一个挑战。最近,合成数据已经成为解决这两个问题的一种方式。然而,现有的方法要么需要人类专家手动调整每个场景属性,要么使用几乎不提供控制的自动方法;这需要渲染大量的随机数据变化,很慢且对目标领域来说往往是次优的。我们提出了第一个完全可区分的合成数据管道,它在闭环中使用神经辐射场(NeRFs)与目标应用的损失函数。我们的方法按需生成数据,无需人力,以最大限度地提高目标任务的准确性。我们说明了我们的方法在合成和真实世界物体检测任务上的有效性。我们还介绍了一个新的 "YCB-in-the-Wild "数据集和基准,为现实世界环境中不同姿势的物体检测提供了一个测试场景。
我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击 这里 回复关键字 日报 免费获取AI电子月刊与资料包。