ShowMeAI日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向。点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击 这里 回复关键字 日报 免费获取AI电子月刊与资料包。
2022 年的新兴技术趋势确定了 25 种需要了解的新兴技术,主要包含三个主题:沉浸式体验的演进、加速人工智能自动化和优化技术人才交付。
沉浸式体验技术,为个人提供了对其身份和数据的更多控制权,并将他们的体验范围扩展到与数字货币集成的虚拟场所和生态系统中,关键技术包括 Digital twin of the customer (DToC,客户数字孪生)、Decentralized identity(DCI,身份去中心化) 、Digital humans(数字人类)、Internal talent marketplaces(内部人才市场)、Metaverse(元宇宙)、Non-fungible token (NFT)、Superapp、Web3。
人工智能自动化,是指加快创建专门的人工智能模型,将人工智能应用于人工智能模型的开发和训练,并将其部署到产品、服务和解决方案交付中,关键技术包括 Causal artificial intelligence(因果人工智能)、Foundation models(基础模型)、Generative design AI(生成式设计AI)、Machine learning code generation(机器学习代码生成)。
技术人员交付相关技术专注于构建数字业务的关键要素:产品、服务或解决方案构建者社区及其使用的平台,关键技术包括 Augmented FinOps(增强型FinOps)、Cloud sustainability(云可持续性)、Computational storage (CS, 计算存储) 、Cybersecurity mesh architecture(CSMA, 网络安全网格架构)、Data observability(数据可观察性)、Dynamic risk governance(DRG, 动态风险治理) 、Industry cloud platforms(行业云平台)、Minimum viable architecture (MVA, 最小可行架构) 、Observability-driven development (ODD, 可观察性驱动开发) 、OpenTelemetry、Platform engineering(平台工程)。
https://github.com/kampersanda/goodname
https://kampersanda.github.io/goodname/
Goodname 是一个协助对函数和软件命名的工具。我们给出函数或软件的简短描述,这个工具会列举出构建的候选名称。例如,给定软件描述『Character-wise Double-array Dictionary』,这个工具建议的候选名称包括『crawdad』和『cheddar』『等。
https://github.com/gereleth/jupyter-bbox-widget
jupyter_bbox_widget 是一个Jupyter小组件,用于标注图像边界框,为目标检测等任务储备数据。它的使用非常简单,通过鼠标可以轻松划定边界拖动边框等,并获得标注的目标框结果。
https://github.com/MobileTeleSystems/RecTools
https://rectools.readthedocs.io/en/latest/index.html
RecTools 是一个易用的 Python 库,用于简单高效地构建推荐系统。它包括用于数据处理和指标计算的内置工具包、各种推荐模型、一些对流行算法和模型选择框架的现有实现的封装。它希望收集现成的解决方案和最佳实践并全部集成在1个工具包里,从而让大家对于推荐系统的开发与部署简单可行。
RecTools 支持密集和稀疏的特征,继承了类似 LightFM 等工具库,还包含各种各样的指标供选择,以更好地适应推荐系统的需要。
https://github.com/MECLabTUDA/FrOoDo
FrOoDo是为了解决数字病理学中的离群数据问题而构建的工具框架。在数据采集过程中,可能会出现不同类型的离群数据,如脂肪滴或整个幻灯片图像中未定位的部分等人工制品。这些异常数据会严重降低医疗影像分割指标,如dice,因此有必要识别和去除异常数据,以便用神经网络进行精准学习与分割。
https://github.com/zhanglj37/Tutorial-on-PhD-Application
这是一份相近的博士申请攻略,作者结合自己申请海外博士的亲身经历组织了整个过程中的各个环节的核心要点与注意事项,也给到很多建议,内容包括:
http://www.incompleteideas.net/book/the-book.html
http://www.incompleteideas.net/book/RLbook2020.pdf
https://github.com/IPNL-POLYU/UrbanNavDataset
UrbanNav 是 PolyU Intelligent Positioning 和 Navigation Lab 为城市地区设计的定位算法提供基准的开源多感官数据集。
https://github.com/notpresident35/learn-awesome-gamedev
可以点击 这里 回复关键字日报,免费获取整理好的论文合辑。
科研进展
- 2022.08.04 『动作识别』 Expanding Language-Image Pretrained Models for General Video Recognition
- 2022.08.08 『计算机视觉』 Label-Free Synthetic Pretraining of Object Detectors
- 2022.08.05 『图像生成』 Keys to Better Image Inpainting: Structure and Texture Go Hand in Hand
- journal 2022 『图像分类』Semi-Supervised Hyperspectral Image Classification Using a Probabilistic Pseudo-Label Generation Framework
论文时间:4 Aug 2022
领域任务:Action Classification, Action Recognition, 动作识别
论文地址:https://arxiv.org/abs/2208.02816
代码实现:https://github.com/microsoft/videox,https://github.com/microsoft/VideoX/tree/master/X-CLIP
论文作者:Bolin Ni, Houwen Peng, Minghao Chen, Songyang Zhang, Gaofeng Meng, Jianlong Fu, Shiming Xiang, Haibin Ling
论文简介:Extensive experiments demonstrate that our approach is effective and can be generalized to different video recognition scenarios./大量的实验表明,我们的方法是有效的,并且可以推广到不同的视频识别场景。
论文摘要:对比性语言-图像预训练在从网络规模的数据中学习视觉-文本联合表征方面显示了巨大的成功,对各种图像任务显示了显著的 "零样本 "泛化能力。然而,如何将这种新的语言-图像预训练方法有效地扩展到视频领域仍然是一个开放的问题。在这项工作中,我们提出了一个简单而有效的方法,将预训练的语言-图像模型直接用于视频识别,而不是从头开始预训练一个新模型。更具体地说,为了捕捉帧在时间维度上的长距离依赖性,我们提出了一个跨帧注意机制,明确地交换跨帧信息。这样的模块是轻量级的,可以无缝地插入到预训练的语言-图像模型中。此外,我们还提出了一个针对视频的提示方案,该方案利用视频内容信息来生成具有鉴别力的文本提示。广泛的实验表明,我们的方法是有效的,可以推广到不同的视频识别场景中。特别是,在完全监督的情况下,我们的方法在Kinectics-400上达到了87.1%的最高准确率,而与Swin-L和ViViT-H相比,使用的FLOPs少了12倍。在零样本实验中,我们的方法在两种流行协议下的最高1级准确率分别超过了目前最先进的方法+7.6%和+14.9%。在少许拍摄的情况下,我们的方法在标注的数据极其有限的情况下,超过了以前的最佳方法+32.1%和+23.1%。代码和模型可在 https://aka.ms/X-CLIP 获取。
论文标题:Label-Free Synthetic Pretraining of Object Detectors
论文时间:8 Aug 2022
领域任务:计算机视觉
论文地址:https://arxiv.org/abs/2208.04268
代码实现:https://github.com/princeton-vl/solid
论文作者:Hei Law, Jia Deng
论文简介:Our “SOLID” approach consists of two main components: (1) generating synthetic images using a collection of unlabelled 3D models with optimized scene arrangement; (2) pretraining an object detector on “instance detection” task - given a query image depicting an object, detecting all instances of the exact same object in a target image./我们的 "SOLID "方法包括两个主要部分。(1)使用具有优化场景布置的无标签三维模型集合生成合成图像;(2)在 "实例检测 "任务上预训练物体检测器–给定描述物体的查询图像,检测目标图像中完全相同的物体的所有实例。
论文摘要:我们提出了一种新的方法,即合成优化布局与实例检测(SOLID),用合成图像预训练物体检测器。我们的 "SOLID "方法包括两个主要部分。(1) 使用具有优化场景布局的无标签三维模型集合生成合成图像;(2) 在 "实例检测 "任务上预训练物体检测器–给定描述物体的查询图像,检测目标图像中完全相同的物体的所有实例。我们的方法不需要任何语义标签进行预训练,并允许使用任意的、不同的三维模型。在COCO上的实验表明,通过优化数据生成和适当的预训练任务,合成数据可以成为预训练物体检测器的非常有效的数据。特别是,在渲染的图像上进行预训练,可以达到与真实图像上的预训练相媲美的性能,同时使用的计算资源也大大减少。代码可在 https://github.com/princeton-vl/SOLID 获取。
论文时间:5 Aug 2022
领域任务:Image Inpainting, Texture Synthesis,计算机视觉,图像生成
论文地址:https://arxiv.org/abs/2208.03382
代码实现:https://github.com/SHI-Labs/FcF-Inpainting
论文作者:Jitesh Jain, Yuqian Zhou, Ning Yu, Humphrey Shi
论文简介:We claim that the performance of inpainting algorithms can be better judged by the generated structures and textures./我们提出,通过生成的结构和纹理可以更好地判断画中画算法的性能。
论文摘要:随着近年来图像生成和处理算法的进步,深度图像修补已经取得了令人瞩目的进展。我们提出,通过生成的结构和纹理可以更好地判断图像修补算法的性能。结构指的是生成的物体边界或孔内的新颖几何结构,而纹理指的是高频细节,特别是填充在结构区域内的人造重复图案。我们认为,更好的结构通常是由基于粗到细的GAN生成器网络获得的,而现在的重复图案可以使用最先进的高频快速傅里叶卷积层进行更好的建模。在本文中,我们提出了一个结合两种设计优势的新型图像修补网络。因此,我们的模型实现了显著的视觉质量,在使用单一网络的结构生成和重复纹理合成方面都达到了最先进的性能。广泛的实验证明了该方法的有效性,我们的结论进一步强调了图像喷绘质量的两个关键因素,即结构和纹理,作为喷绘网络的未来设计方向。
论文时间:journal 2022
领域任务:Hyperspectral Image Classification, pseudo label, 图像分类
论文地址:https://ieeexplore.ieee.org/abstract/document/9849704
代码实现:https://github.com/majidseydgar/Res-CP
论文作者:Majid Seydgar, Shahryar Rahnamayan, Pedram Ghamisi, Azam Asilian Bidgoli
论文简介:The generated pseudo labels of our proposed framework can be fed to various DNNs to improve their generalization capacity./我们提出的框架所产生的伪标签可以反馈给各种DNNs,以提高其泛化能力。
论文摘要:当有丰富的标记样本时,深度神经网络(DNNs)在高光谱图像(HSI)分类中表现出令人印象深刻的性能。问题是,HSI样本注释的成本非常高,而且这项任务的预算通常是有限的。为了减少对标注样本的依赖,文献中引入了深度半监督学习(SSL),它从标注和未标注的样本中共同学习。然而,由于各种噪声影响和无标签样本的模糊性,从无标签数据中学习鲁棒性和判别性的特征是一项具有挑战性的任务。因此,最近的进展受到了限制,主要是在预训练或热身阶段。在本文中,我们提出了一个深度概率框架来生成可靠的伪标签,以明确地从未标记的样本中学习鉴别性的特征。我们提出的框架所生成的伪标签可以反馈给各种DNN,以提高其泛化能力。我们提出的框架每类只需要10个标签样本,将标签集表示为潜在空间中的不确定性感知分布。然后为那些特征值与分布高概率匹配的未标记样本生成伪标签。通过在四个公开可用的数据集上进行广泛的实验,我们表明我们的框架可以生成可靠的伪标签,以显著提高几个最先进的DNN的概括能力。此外,我们还介绍了一个新的用于HSI分类的DNN,与竞争对手相比,它表现出了出色的准确性。
我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击 这里 回复关键字 日报 免费获取AI电子月刊与资料包。