作者| Max Langenkamp
OneFlow编译
翻译|徐佳渝、杨婷
为什么要关注机器学习开源软件(MLOSS)?在我们看来,MLOSS对AI发展来说举足轻重,但未获重视。
机器学习开源软件是开源许可下发布的专为机器学习而设计的计算机软件。机器学习开源软件包括框架(如PyTorch和Pyro)、“一体化”软件包(如scikit-learn)以及模型开发工具(如TensorBoard),但不包括Jupyter Notebook这类交互式计算工具。虽然Jupyter Notebook并非专为机器学习而设计,但是相关从业者经常会用到这款工具。
1
机器学习开源软件举足轻重,但未获重视
MLOSS举足轻重
过去十年,只要构建过ML模型的人都知道MLOSS至关重要,无论是Deepmind的研发工程师,还是印度的高中生都无一例外会使用开源软件来构建模型。我们采访了24名ML从业者,他们都给出了相同的答案:MLOSS工具在模型构建中的地位举足轻重。
从业者都在免费使用MLOSS工具,也就意味着这类工具会对人工智能发展产生巨大影响。然而,探索MLOSS对AI发展影响的研究人员却寥寥无几。
MLOSS未获重视
迄今为止,研究者就影响人工智能发展的因素展开了多次讨论,其焦点都集中于算力,部分研究者将算法和数据也列为了影响因素之一。例如,艾伦·达福(Allan Dafoe)认为影响人工智能发展的关键因素是计算能力(算力)、人才、数据、洞察力及资金。[1] 黄(Hwang) (2018)探究了硬件供应链对机器学习发展的影响。罗森菲尔德(Rosenfeld) (2019)和海斯特内斯(hesistest)(2017)研究了数据集大小与人工智能模型精度的关系。
越来越多的文献都提到了数据集大小和人工智能模型精度,旨在明确如何建立人工智能中输入和预测误差之间的关系模型。然而,据我们所知,目前还未有关于MLOSS如何影响人工智能发展的深入研究。
目前,我们的关注点是数据、算力等因素如何改变人工智能的发展方向,不过,同时也应聚焦于MLOSS在人工智能发展中的角色。
MLOSS及AI生产函数
我们在早期研究中存在这样的疑惑:数据、算力及MLOSS这些AI生产的影响因素相互之间有何联系,而阐明这些因素之间的联系正是理解AI系统开发默认轨迹(default trajectory)的关键。
柯布-道格拉斯生产函数(Cobb-Douglas production function)是经济学中常用的界定方式。该函数用于资本和原材料等变量的建模,通过函数参数化以表示投入与产出的关系。
CD生产函数的表示形式
AI生产函数的隐含形式
艾伦·达福将“AI生产函数”应用于人工智能治理,并提出构成该生产函数的关键在于算力、人才、数据、投资、时间以及先前进展和成果等指标[1]。达福就“人工智能进展”研究进行了探讨,此外,在类似研究中也有相关探讨,以解除人工智能特定范式的思维限制。
实际上,这就相当于“深度学习”和“人工智能”。而我们可以选择不同范式,不过认识到这些范式功能的多样性也十分重要。例如,概率程序更容易吸收现存的显性知识,同时能减少对大数据集可用性的依赖。
虽然生产函数可以明确区分出影响深度学习发展的因子,但也存在局限性。特别是当生产函数被认为是自变量的乘积时,不会考虑生产因子之间的共同依赖关系,而且可能还会隐藏每个因子的上下文信息。
还有另一种方法可以阐明影响AI生产的因子,即使用有序的功能依赖图,亦称沃德利地图(Wardley map),来解释因子之间的共享依赖关系。例如:中间模型表示依赖于算力基础设施和MLOSS框架。
2