近年来,作为人工智能的核心技术,深度学习在图像、语音、文本处理等领域取得了大量关键性突破。作为深度学习的必经环节,数据标注为人工智能企业提供了大量带标签的数据,供机器训练和学习,保证了算法模型的有效性。随着人工智能的兴起,深度学习、机器学习等人工智能领域对数据标注的需求度越来越高,数据标注的重要性也不断凸显,但是其在发展过程中也面临着一些挑战和问题。比如,尽管数据标注工具能够在一定程度上帮助标注员完成标注任务,但是整体的标注效率仍然较为低下。此外,现有数据标注平台普遍采用众包模式来分配标注任务、造成标注结果的质量层次不齐,影响算法模型的准确性。同时,基于众包模式的数据标注任务会造成用户数据缺乏安全性,并面临隐私泄露的风险。因此,研究提高数据标注质量的技术和方法,成为数据标注在新环境和新技术下的一个研究方向。
目前大部分的开源标注工具都可以运行在多个操作系统上,而且它们大多只针对特定对象进行标注。标注平台在包含标注工具全部功能的基础上将所有标注环节工具化,可有效地对标注任务进行全局管理和跟踪。通常,商用的数据标注工具由众包标注平台来提供。数据标注众包模式平台最早出现在美国。近年来,国内的一些互联网公司、大数据公司和人工智能公司也纷纷推出了自己的数据标注众包平台和商用标注工具。这些商业的数据标注平台基本上都能对各类数据进行标注,但各自的业务方向也有一定侧重。
20世纪90年代以来,项目管理经过长期的实践与探索,逐步形成了一套面向项目的科学管理方法体系,是大型复杂任务、具有较高不确定性的任务以及不具备完全经验支撑的一次性任务管理的有效方法,目前己经成为应用相当广泛、发展最快和最为重要的现代管理学领域之一。
人们虽然对机器学习有很多研究,却很少关注管理和领导标注工作的方法和注意事项。数据产品生产企业以项目的方式来组织和实