备注:
- 内容源自GPT4对AI Report 2023的整理,做了部分手工校正。
- 下文GPT翻译“笔记本”:指的是jupyter notebook
- Kaggle AI Report 2023中只是各文章的介绍,文章详细内容在Link to notebook超链接中。
- Kaggle AI Report 2023原文:https://storage.googleapis.com/kaggle-media/reports/2023_Kaggle_AI_Report.pdf
关于Kaggle AI Report 2023
Kaggle AI Report 2023源自Kaggle举办的一个比赛,以下是该竞赛的主要内容概述:
-
竞赛目标:鉴于每天都有大量的AI论文发布,使得跟上当前的创新变得非常困难。此竞赛的目的是利用Kaggle社区的多样化专业知识来汇总和总结过去两年中AI的快速进展。竞赛希望与更广泛的研究社区分享Kaggle社区的集体观点。
-
竞赛背景:在这个分析竞赛中,参与者将就以下七个主题中的一个写一篇文章,描述社区在过去2年的工作和实验中学到了什么:
- 文本数据
- 图像 或 视频数据
- 表格 或 时间序列数据
- Kaggle竞赛
- 生成性AI
- AI伦理
- 其他(不属于任何其他类别的内容)
-
时间线:
- 2023年5月11日 - 开始日期
- 2023年7月5日 - 团队合并截止日期
- 2023年7月5日 - 同行反馈期开始
- 2023年7月16日 - 最终笔记本提交截止日期
-
奖励:每个类别的顶级文章各获得$10,000。获胜的文章将在竞赛结束后的出版物中汇总,并给予作者署名权。
-
评估:提交给2023 Kaggle AI Report竞赛的作品将由七位Kaggle大师组成的专家评分小组进行评估。每个主题领域都有一个专门的评分者,负责将评估标准应用于提交给他们部分的文章。
-
提交指南:除了撰写文章外,还需要创建并提交一个submission.csv文件,以便对参与者进行排名和授予积分/排名。
-
同行反馈指南:同行反馈必须以公开评论的形式出现在附加到AI报告竞赛的Kaggle笔记本的底部。
AI Report 2023内容梳理
引言部分
-
Foreword by D. Sculley (Kaggle CEO) (页面 6-7)
- D. Sculley 强调了 Kaggle 社区的价值,这个社区拥有数百万成员,是当今世界上最有价值的开放资源之一。
- Kaggle 社区成员共同学习、分享、竞争、合作、压力测试,并评估 AI 和 ML 中真正有效的内容,并以深入的方式进行。
- 2023 Kaggle AI 报告是由社区创建的,从数百篇提交的文章中选出。报告中的每篇文章都提供了关于 AI 和 ML 领域最有趣或最重要的最新发展的独特观点。
- D. Sculley 鼓励读者享受阅读,并对 Kaggle 社区的数百万成员表示深深的感谢。
-
About the Kaggle AI Report by Phil Culliton (页面 8-10)
- Kaggle AI 报告是由 Kaggle 社区编写并提交的一系列文章的集合,这些文章分为七个部分,这些部分代表了现代 ML 研究和实践中的重要领域。
- 报告中的文章是以 notebook 的形式编写的,这是一种丰富的多媒体通信形式,可以包括文本、图像、视频甚至可运行的代码。作者鼓励读者点击每篇文章的链接,以充分探索作者创建的体验。
- 为了创建这份报告,他们与社区的杰出成员合作,这些成员在报告的 7 个主题领域都有背景和经过验证的技能,以充当评审员和专家编辑。这些社区成员是他们的领域主席。
第1部分 生成式AI
以下是关于"生成性AI"章节中的文章的详细整理:
1. 生成性AI概述 (页17-18)
- 生成性AI专注于创建新的内容,如图像、文本和音乐,由生成对抗网络(GANs)和大型语言模型(LLMs)驱动。
- GANs用于创建逼真的数据,而LLMs擅长文本和语言生成。
- 生成性AI有潜力革命化许多领域,如写作、音乐和数据制作。
- 生成性AI的未来发展将影响各种行业,并需要对其伦理和风险管理有全面的了解。
2. 生成性AI文章#1 (页19-20)
- 标题:2023 Kaggle AI Report - Generative AI
- 作者:Trushant Kalyanpur
- 内容:文章从2021年到2023年,追踪了生成性AI的深远演变,重点关注图像合成、语言模型和音频生成。重要的创新如GPT4、DALL-E和ChatGPT成为焦点,推动AI生成的内容进入新的领域。文章还仔细讨论了与AI能力相关的伦理问题。
3. 生成性AI文章#2 (页20-21)
- 标题:Understand, Generate and Transform the World
- 作者:Yuqi Liu
- 内容:文章追踪了生成性AI在许多领域的演变和日益增长的影响。文章从其历史根源到由深度学习推动的加速增长进行了探讨,重点关注了像DALL·E 2这样的关键模型。文章坦率地面对挑战和伦理问题,平衡地看待生成性AI的实际应用和局限性。
4. 生成性AI文章#3 (页21-22)
- 标题:A Glimpse Into the Realm of Generative AI
- 作者:Pranav Mohan Belhekar, Arya Gaikwad
- 内容:文章探讨了生成性AI所带来的创新之旅和范式转变。从其与一个魔法的数据驱动的盒子的相似性,到从Boltzmann Machines到生成对抗网络(GANs)的演变,文章详细讨论了生成性AI在图像合成、文本生成等方面的影响。文章还探讨了伦理问题,强调了公正的训练数据和处理AI生成内容的社会影响。
这些文章为我们提供了生成性AI的深入了解,包括其历史、当前的进展和未来的潜力。
第2部分 文本数据
在“Text Data”章节中,以下是每篇文章的主要内容:
-
Section Overview (页面 24-25)
- 大型语言模型(LLMs)目前是许多或大多数AI研究者的主要关注焦点。
- 文本基础的Kaggle比赛的一个可观察的趋势是,参赛者倾向于微调公开可用的模型,这些模型已经在类似的语言或任务上进行了预训练。
- 强大的文本建模使得能够解决更具挑战性的用例,例如分析Jupyter笔记本,理解和评分学生论文,以及文本数据与图像或音频等其他数据类型相交的问题。
-
Text Data Essay #1:
- 标题: “Contemporary Large Language Models LLMs”
- 内容: 这篇文章涵盖了与大型语言模型(LLMs)的初步互动,包括与基于GPT的聊天机器人的交互、由LLMs驱动的应用程序的创建以及阅读了一些引人注目的研究论文。文章讨论了LLMs的核心概念和特点,探讨了预训练LLMs如何有效地利用大量的训练数据和参数。它进一步探索了提示工程,从基本技术如零次、一次和少次提示到更高级的方法,如思维链(CoT)和理性与行动(ReAct)。文章还探讨了如何通过人类反馈来增强LLMs,探索了基于强化学习的微调(RLHF)进行有针对性的优化。文章还探讨了如何为应用程序开发增强LLMs,特别强调了检索增强生成(RAG)作为一种装备LLMs的外部知识的框架。内容最后提供了参考来源。[来源: 27页]
-
Text Data Essay #2:
- 标题: “Large Language Models: Reasoning Ability”
- 内容: 这篇文章重点介绍了过去两年与LLM推理工作和实验中获得的见解。在给出了不同类型的推理的概述之后,作者探讨了通过思维链提示、思维树框架、语言反馈加强、交错的推理和行动以及处理复杂的数学推理所取得的进展。通过分析相关的论文及其发现,他们提供了LLM推理的架构和进展的全面概述。他们特别强调了在确保伦理上安全可靠的AI系统方面所学到的经验教训和前进的方向。[来源: 27-28页]
-
Text Data Essay #3:
- 标题: “Mini-Giants: ‘Small’ Language Models”
- 内容: 随着巨大的LLMs变得昂贵并且对个人或小公司进行微调变得过于庞大,小型语言模型正在蓬勃发展并变得越来越有能力。作者称他们为“迷你巨人”,并主张通过关注小型语言模型为开源社区创造双赢。这篇文章简要地介绍了背景,讨论了如何获得小型语言模型,提供了小型语言模型的比较研究,并简要讨论了评估方法。作者讨论了真实世界中最需要小型语言模型的应用场景,并以讨论和展望作为结论。[来源: 28-29页]
第3部分 图像或视频数据
以下是“Image / Video Data”章节中的三篇文章的详细内容:
-
Section Overview by Rob Mulla
- 主题摘要:这一部分探讨了计算机视觉的最新进展,特别是与图像和视频数据的使用相关的进展。尽管计算机视觉领域可以追溯到1960年代,但在过去的几十年中,它的发展尤为令人兴奋。特别是在过去的两年中,不仅在传统的计算机视觉任务(如分类和对象检测)中取得了重大进展,而且在Vision Transformers (ViT)和few-shot学习等新兴领域也取得了进展。
- 趋势与预测:计算机视觉可以追溯到1950年代和1960年代,当时研究人员开始开发用于检测图像中的边缘和模式的算法。尤其是视频数据正在见证多对象跟踪、动作识别和时空推理的发展。一个值得注意的活跃研究领域围绕着泛化和基于变换器的架构。[Pages: 30-32]
-
Advances in “AI Vision Models in the Last Two Years” by Dmitri Kalinin
- Dmitri的文章总结了计算机视觉模型的最新进展,重点介绍了六个关键领域:语义分割、视觉变换器、少量和零次学习、计算机视觉模型的泛化、持续学习以及计算机视觉中的人工辅助AI。文章强调了最新的研究,展示了计算机视觉的最新演变。
- 语义分割模型因其在自动驾驶和医学成像领域的作用而受到关注。强调了新模型的出现、独特的损失函数以及大型图像数据集处理的弱监督策略的增长。[Pages: 33-34]
-
“Image and Video Data” by Danial Sultanov
- Danial的报告强调了图像和视频数据使用的增长趋势。特别是,他指出了计算机视觉领域发表的论文数量的增加,以及自2012年发布开创性的AlexNet以来,每年发布的论文数量持续增加。报告接着涵盖了计算机视觉的5个领域:数据预处理、计算机视觉应用、CVPR会议提交的分析、CV用例以及计算机视觉的未来展望。
- 接下来,报告涵盖了图像分类和分割模型的演变,强调了Visual Transformers和ConvNeXt等架构的崛起,以及它们与自然语言处理结合用于视觉理解。对2021年和2022年的计算机视觉和模式识别会议(CVPR)的顶级论文的探索进一步显示,变换器和ViT主题是该领域的一些热门话题。[Pages: 34-35]
第4部分 表格 或 时间序列数据
-
Section Overview by Bojan Tunguz
- 主题摘要:表格数据形式的交易数据和交易记录自书写起源以来就已存在。在许多组织中,这是最常见的数据形式。据估计,在他们的专业环境中,有50%到90%的数据科学家将表格数据作为他们的主要数据类型。时序数据与表格数据相似,但增加了时间信息,这使得数据点的时间性质成为时间序列数据集的主要特征。
- 尽管深度学习在许多领域都取得了革命性的进展,但表格数据和时序数据仍然主要依赖于非神经网络的机器学习技术。
-
Learnings from the Typical Tabular Modelling Pipeline by Rhys Cook
- 该文章旨在从最近的高性能表格数据解决方案中提取关键的学习,并与文献中的最新发展进行对比。
- 主要发现包括:特征工程是表格数据ML建模流程中最重要的方面;梯度提升树是处理这些问题的首选算法;集成方法对于增强表格数据模型的预测能力非常有效。
-
AI Report: Time Series and Tabular Data by Chuandong Tang, Paulina Skorupska
- Kaggle一直是推动机器学习进步的关键平台。这份报告专注于时序和表格数据的最先进的ML模型的应用。
- 该报告通过多种案例研究,揭示了在各个领域中证明有效的创新特征工程和建模技术。
-
Tabular Data in the Age of AI by Kobbie Manrique
- 这篇报告旨在提供表格数据的AI技术最新进展的概述,目的是为Kaggle数据科学社区提供有价值的见解并激发未来的创新。
- 该文章强调了最新的AI技术及其在表格数据分析中的实际应用,帮助数据专业人员保持在这个迅速发展的领域的前沿。
第5部分 Kaggle竞赛
-
Section Overview by Sanyam Bhutani:
- Kaggle竞赛被视为AI爱好者和资深人士建立AI资质的最有公信力的途径。
- 这一部分旨在涵盖过去两年中Kaggle竞赛的发展和观察。
- 竞赛一直被誉为测试竞争者技能和评估想法、论文和框架的首选领域。
- 随着时间的推移,可以观察到旧竞赛的获胜解决方案成为新的基线。
- 例如,伪标签、种子平均、爬山等方法从获胜解决方案中明确提及,现在经常出现在许多解决方案中。
-
“Towards Green AI” by Leonie Monigatti:
- Kaggle通常被外界视为一个“集成游乐场”,Kaggle的竞赛者经常结合各种方法和模型来提高他们的得分,而不需要平衡他们解决方案的计算成本。
- 为了反击这一趋势,Kaggle一直在为那些既准确又高效的解决方案颁发特殊奖励。
- 这篇报告分享了关于高效模型和高效建模实践的Kaggle竞赛的学习经验,特别是关于如何在不牺牲深度学习模型的性能的情况下减少其碳足迹。
-
“How to Win a Kaggle Competition” by Dariusz Kleczek:
- 这篇文章深入探讨了Kaggle获胜者的思维,并使用LLMs系统地从大量的Kaggle竞赛写作中提取和分析结构化数据(这些写作是Kaggle竞赛的获胜者描述他们的解决方案的专门讨论帖)。
- 它从最令人垂涎的方法和策略中提炼出智慧和想法。
- 从数据增强的细微差别到梯度提升决策树的威力,这篇报告为那些有兴趣攀登排行榜的人描绘了一个全面的画面。
-
“Kaggle AI Report: Medical Imaging Competitions” by Nghi Huynh
- 医学竞赛在Kaggle上历来都是最受欢迎的。
- 这些竞赛涉及不同的成像方式,如MRI、CT扫描和X射线。
- 这篇报告对围绕医学成像的Kaggle竞赛进行了深入的分析,旨在发掘机器学习社区采用的主流方法和架构。
- 该研究将竞赛细致地划分为特定的类别,包括对象检测、分类和分割,并深入探讨了最常用技术的细节。
第6部分 AI伦理
-
Section Overview by Parul Pandey:
- AI技术的广泛应用,从消费品到安全措施,涉及到高风险的决策领域,如就业、假释、贷款和安全等。
- 随着生成性AI的快速发展,其潜在的机会和挑战都得到了放大。尽管其广泛的应用证明了其潜力,但也突显了对用户、组织和大众的固有风险。
- AI伦理的研究不仅仅是学术追求,更是社会命题。随着AI继续塑造世界,确保其伦理部署变得至关重要。
-
“Exploring the landscape of AI Ethics” by Patrik Joslin Kenfack, Meghana Bhange, Maryam Babaei, Ivaxi Sheth, Dave Harold Mbiazi Njanda:
- 这篇获奖的文章深入探讨了我们这个不断发展的数字时代AI的伦理含义。
- 文章讨论了建立对AI的信任的核心原则,包括隐私、数据保护、透明度、可解释性、公平性、问责、安全性、健壮性,甚至是环境考虑。
- 文章为每个原则提供了全面的探索,展示了如何将它们无缝地整合到AI的生命周期中。
-
“Developments in AI and Ethics in the past 2 years” by Antong C.:
- 文章涵盖了过去两年AI伦理的发展,强调了持续的挑战和不断的努力来应对它们。
- 在这段时间里,AI领域经历了显著的增长和对其能力的加强关注。
- 文章强调了AI伦理的核心原则,指出了应用的差距,并提出了可能的补救措施。
-
“Ethical AI is all we need!!” by Shreya Mishra, Piyush Mathur, Raghav Awasthi, Anya Mathur, Harshit Mishra:
- 在这篇文章中,作者强调了建立对AI系统信任和促进AI研究可持续发展的伦理的必要性。
- 该论文旨在调查和评估研究出版物中的伦理维度,特别关注2007年至2023年的AI文章。
第7部分 其他主题
-
章节概述,Martin Henze
- 这部分的文章展示了机器学习进步如何超越传统领域的界限,并在跨学科中产生越来越大的影响。从优化算法的研究到理论物理和医疗研究,这些文章都展示了机器学习技术如何从改善我们的日常生活到加深我们对自然基本规律的理解。
-
深度学习中的优化算法,Svetlana Nosova
- 这篇获奖文章为读者提供了一个结构化且特别容易理解的关于深度学习中关键优化算法的概述。文章介绍了最近的两项发展:多功能的Momentum Models (MoMo)方法减轻了对学习率调度器的需求,而Scalable Stochastic Second-Order Optimizer (Sophia)考虑了复杂目标景观中的二阶导数。
-
生物科学中的人工智能和机器学习模型应用,Samantha Lycett
- 这篇简洁的文章研究了机器学习方法在应对COVID-19大流行中的使用方式。在描述医疗和生物科学对病毒的反应的背景下,作者分析了Kaggle数据集和竞赛中相关的机器学习贡献。特别是在大流行的早期,Kaggle社区反映了机器学习领域在相当大的时间压力下面临的挑战。
-
将AI/ML应用于理论物理,Lorresprz
- 这项工作描述了弦理论中的最近挑战,这对机器学习从业者来说是非常容易理解的。弦理论,其流形和紧凑维度,无疑是一个复杂领域中的更复杂领域。但是,其构建一个统一的“万物理论”的愿景使其成为重写我们对物理和整个宇宙理解的主要竞争者。
-
Kaggle AI报告:医疗数据,Diego Flores
- 在Diego Flores的文章“从医疗数据中学到的经验教训”中,作者探讨了AI技术在医疗领域的应用,并讨论了一些挑战和所学到的经验教训。报告强调了联邦学习与隐私和安全性的关系,以及在医疗环境中模型可解释性的重要性。
-
图学习和复杂网络,Hoda Jalali Najafabadi, Ali Jalali
- 关系图是理解复杂系统结构的核心概念,如社交网络或交通流模式。在对图论世界的温和介绍之后,这篇综述文章的作者带读者参观了图应用程序。这篇文章涉及到粒子物理、异常和欺诈检测、交通和交通、蛋白质折叠(再次遇到AlphaFold)、化学信息学和计算材料科学、大脑和计算神经科学、药物-药物相互作用、文本数据以及机器人和多代理系统的领域。