整理 | 张洁
近年来,在互联网、传统企业深度拥抱数字化、云原生等新兴技术的趋势下, AI已成为不可或缺的底层支撑。不过,站在开发者角度来看,AI开发的高门槛、匮乏的开发工具、庞大的数据量,都让很多开发者望而却步。在此情况下,也有不少企业为解决这一难题,投身于AI开发生产平台的构建之中,但现实和理想的差距,让我们也深刻意识到工具层的创建远远没有想象中那么简单,对于时下涌现的这些AI平台而言,它们在最新趋势下将迎来哪些机遇与挑战?在开发过程中,又面临什么样的痛点和难题?
为解答以上问题, 首次IDP Meetup近日在京成功举办。会议邀请到数位资深行业专家,包括智源研究院副院长、图灵联合创始人、前CSDN总编刘江,Apache Software Foundation Member、前易观CTO郭炜,前贝壳金服小微企业生态CTO史海峰,掌趣科技董事长刘惠城,蔚领时代创始人兼CEO郭建君,以及白海科技创始人兼CEO卢亿雷,与会嘉宾分别进行了演讲分享和圆桌讨论。
着眼于AI发展的当下,刘江认为:“AI技术涉及范围很广,但在真正落地上还处于早期发展阶段,研究人员的终极目标是建成通用AI,目前距离这个发展目标还很远。”具体来说,从技术和产业两个发展角度来说,AI在未来将呈现以下四个发展将趋势:
第一,通用大模型成为AI前沿研究热点
两年前,Open AI推出了GPT-3,自此掀起了“大模型”的建设浪潮。紧随其后,智源研究院在去年发布了全球最大的超大规模智能模型“悟道2.0”,其参数规模达到1.75万亿,是GPT-3的10倍。在此基础上,该模型同时拥有国际领先的高效训练平台和完整自主的超大规模智能模型技术体系。
第二,AI for Science催生科研新范式
经过数十年的起起落落,AI 技术终于在新一轮的技术研究中突破了上升瓶颈。比如像“ AlphaFold 2”。2020年10月,DeepMind开发出蛋白质结构预测工具AlphFold2,该人工智能程序在蛋白质结构预测问题上接近实验解析水平,解决了困扰结构生物学家50年的重要问题。
第三,AI系统成为兵家必争之地
自2012年以来的十年间,最先进的模型计算时间缩短到3-4个月,芯片算力增长了7倍,但AI对算力的需求增长了30万倍。在AI的大规模应用趋势下,以硬件为基础的AI系统呈现出巨大的发展空间。
第四,自监督、常识、因果、强化和类脑
从符号到感知,再到认知智能,开发者不断为AI赋予更多的认知能力,持续提升模型“智商”,认知AI不仅可以通过数字驱动构建更好的AI系统,还能与行为意识连接,从而主动“学习”与“创造”行为。未来, 应用侧的机器人、元宇宙也是值得前瞻关注的重要方向。
在AI技术浪潮中,AI开发平台又会面临什么样的挑战呢?为此,在卢亿雷看来,企业将AI落地实践后,主要面临着来自数据、算法和算力层面的挑战。
数据方面,核心问题是数据量激增,尤其是半结构化数据和非结构化的数据,其中的数据价值HIA有待挖掘;其次是数据标注太过复杂,海量的数据标注需要耗费大量时间和精力;此外,实际操作中的噪音数据多,生产数据存在波动,会影响模型准确度。
算法方面,随着算法模型的日益复杂,面临的主要挑战是对计算机性能提出了更高的要求;其次是技术和开发工具门槛高,在AI人才短缺的情况下,加剧了企业对AI应用的挑战;最后是开发协助沟通不畅,开发涉及多角色协同,沟通不畅会极大地影响效率。
算力方面,一方面是算力资源成本高,硬件采购成本高,算力成本居高不下,传统企业难以承担;另一方面则是算力资源利用效率低,各业务对算力需求攀升,但需求与算力供给的匹配需待优化。
面对上述挑战,卢亿雷认为企业急需一个功能齐全的AI开发工具,方便进行数据接入、数据开发、模型的开发和算力资源调度,目的是帮助企业降本增效地应用AI技术,加速产品开发和创新。
在趋势方面,他认为AI开发生产平台的发展主要呈现一站式、云原生和简单化三大趋势。其中,简单化尤为重要。经历了由简单到复杂集成式工具的演变后,简单、再简单和高度易用将是AI开发生产工具的未来发展方向。
从分类上来看,目前AI开发生产平台主要可分为两类:一类是以IDP、JupyterLab等为代表的AI基础软件平台,其核心特点是以用户为导向,按需使用、专业轻量;另一类是以云厂商产品为代表的的集成式算法开发平台,其核心特点是以AI开发生产全流程为导向,全面集成各环节工具,厚重复杂。
郭建君为我们讲解了在元宇宙的趋势下,如何运用AI技术发展云游戏。在面对应用超出本地的算力要求时,需要与云计算结合起来,让用户在本地端接收到更高品质的体验。
首先,他分享了对元宇宙的理解:“互联网和移动互联网时代,其基础是计算。原宇宙的未来是可视化的,其基础将从计算变成计算加渲染,尤其是实时渲染。元宇宙就是碳基生物以碳基大陆为起点,跨越整个算力之海,找到硅基大陆的一个过程。元宇宙的原住民就是数字人,元宇宙的规则是AI的规则。”
其次,他认为在云游戏场景中,客户端看到的画质效果与服务端加载的画质效果需要保持一致,在运用AI的运算能力之后,云游戏服务端与客户端之间可以实现补帧的效果。例如:云游戏服务端可以只加载720P 30FPS或者60FPS的画质,在配合AI的能力后,客户端可展示出1080P 90FPS甚至120FPS,极大的提升了游戏的画质体验。
除此以外,郭建君阐释了AI能够为游戏运营带来哪些优化:一方面是实现超大场景或者超大模型,不再只依靠设计人员完成,通过更多AI驱动软件,而非人工来驱动;另一方面是是成本的问题,在服务端更大程度降低开销,同时不影响C端呈现,准确说是端到端的优化。
最后,郭炜分享了他对于AI与DataOps的洞察。
在数智化转型驱动下,近年来各种“Ops” 爆发性增长。他基于自身在DataOps和开源领域的深耕经验,观察到Ops目前有三大趋势:
第一:数据量和数据复杂程度变大,用户群场景日益复杂
预计未来5年,我国数据量年复合增长率将达到24%,各种数据源、数据技术、数据质量提升了数据的复杂程度。用户侧,对数据的需求场景日益多样化,如碎片化、即时、效率、实时互动等。
第二:中国场景丰富,而海外场景则相对专注
我国数据应用场景极为丰富,产品通常也呈现“大而全”特点。而海外产品或开源项目多针对某一具体场景和小问题,深耕而专精。
第三:中国的开源是技术驱动的,而海外开源则是商业化开源。
与海外相比,中国的开源事业尚处于起步阶段,还是以技术驱动为主,多为极客们“为爱发光”而构建的项目。海外对开源的认知和接受度已相对成熟,开源项目进入商业化阶段。
郭炜以DolphinScheduler为例,阐释了DataOps的技术图谱和应用价值。DataOps 的核心目标是提高数据使用效率、降低数据使用门槛。未来AI将会是数据挖掘和利用的主要技术。AI和DataOps的协同,将会进一步推动企业更快、更好、更深入地挖掘和使用数据,加速企业数智化转型创新。
圆桌讨论:AI开发平台的未来展望
针对AI开发平台及产业的未来发展趋势,每位专家也有自己的看法。
掌趣科技董事长刘惠城指出,AI的进步,包括数据化的管理、进展是非常快的。“悟道”的出现,就可以看出国产的软件在崛起。
郭炜直言道,现在行业中不少人比较“卷”,要想做好软件工具,得从三个方面进行考量:一是简单易用,上手容易;二是背后的技术可延展性和扩展性好,并且特别稳定;三是云原生技术,从企业角度来讲云原生更具伸缩性和弹性。
前贝壳金服小微企业生态CTO史海峰则谈到,发展AI平台的主要目的是为了让更多人进入到AI行业中来,每个人可以根据自己的能力找到匹配的位置。将来的趋势是我们能找到易上手且有售后保障的平台,这样才是一个完善的生态体系。
刘江则表示,AI开发生产工具会有广阔需求。随着行业的蓬勃发,对工具和平台产生大规模需求是必然的商业规律。目前是中国技术企业发展的大好时机,更是国产替代的黄金年代。
卢亿雷基于IDP实践探索中的切身经验,分享了其对AI开发生产平台产品路线演进和商业模式的观点。据他预判,未来70-80%的大数据工程师将转化为算法工程师。