作者:徐宗本《中国科学:信息科学》2021.51:1967-1978
AI从“不可用”→“可以用”,“可以用”→“用得好”“很好用”存在诸多技术瓶颈
技术变革的先导是理论创新(新突破、新发展、新探索),即基础研究
AI——“算例、算法、算力”
传统统计学:先问题,后数据——“数据→模型→分析→检验”
大数据统计学:先数据,后问题
统计学一直以来的公设在大数据情形下常常不满足,在真实的大样本条件下去建立各种估计的大样本性质。
统计学与人工智能的区别:
统计学:使用专有的随机变量和分布函数去建模数据
人工智能:不提供对数据的建模,使用高度复杂的假设空间(eg.深度神经网络)
两者能否融合?
所有建模都必须在表示的广泛性和统计推断的易实现性或可解释性之间取得平衡,这是所有方法的瓶颈。
人工智能算法本质上是大数据分析处理算法,即通过计算对大数据进行加工处理和从中萃取有用信息。
当前人工智能应用的主要障碍之一是对真正的大数据,大部分已知的核心算法和基础算法失效(要么不能用,要么算出结果不满意)。
“七个巨人问题”:(在通常的单机环境下都有非常成熟的算法)
大数据环境:
- 流环境:数据以“流”方式给出
- 磁盘环境:数据存储在计算外设的磁盘
- 分布式环境:数据存储在不同机器或边缘端
- 多线程环境:数据在多处理器和共享RAM的环境中存储
信息空间——数据空间
如何对自然产生的图像、视频、文本、网页等异构数据进行存储处理?
非结构化→结构化:本质是寻求数据的数学表示(关键是设置一个最小的公共维度,所有类型数据在数学化空间中都能得到表达)
对常见的这些数据空间能否赋予某种数学结构使它们成为数学上的空间?
eg.能否通过赋以缩放、卷积、平移、旋转等操作或运算,并选取图像中差异性的一种度量(欧氏距离、KL散度、Wasserstein距离等),使图像空间成为数学意义下的空间?怎样选择和搭配使建立的空间更利于图像分析?
研究数据空间为人工智能技术寻找新的突破口
深度学习独特优势:对任意复杂数据都有强的建模能力(只要训练数据足够就一定可学习、可应用,提供普适的AI解决方案)
致命缺陷:网络结构难设计、结果不具可解释性、易受欺骗等。
如何定量描述/定性刻画构-效关系?——估计深度网络泛化性能的上下界
学习过程的收敛性、深度学习的稳健性…
把异构的多类数据/信息在某个层面上打通(存在某些“共有特征”或者“不变量”)
机器翻译:把两种语言打通、把语音和文字打通
机器视觉:把图像和文字打通
学习方法是指导、管理学习者如何学习/完成学习任务的一般原则与方法学,让机器学会人类的学习方法论。
机器学习:根据输入-输出空间中的数据对未知输入-输出关系f:x→y做出估计
应用与有效性一直是以一些基本的先验假设为前提的:
提高现有人工智能技术的应用水平与性能→突破这些机器学习先验假设
AI新一轮的浪潮:克服深度学习只适用于封闭静态环境、固定任务、鲁棒性不好、解释性不强等,发展对开放动态环境可用、稳定、可解释性、自适应的AI技术。
终身学习机——终身学习系统、终身学习自然原则
实现机器学习的自动化是更为现实也必须实现的中间阶段目标
- 数据/样本层面:数据自生成、数据自选择
- 模型/算法层面:模型自构建、算法自设计
- 任务/环境层面:任务自切换、环境自适应
学习空间:K = F * H * L * O
F:描述数据集的分布函数空间
H:机器学习假设空间
L:损失函数空间
O:优化算法空间
“手工知识”——以符号推理/知识库运用为特征,知识表示人工设定
“统计学习”——以基于数据/机器学习为特征,ANN广泛使用,知识自动表示
“适应环境”——以自主学习/适应环境为特征
既具有强大的知识自表示/自学习功能,又具有强大的知识推理功能
模拟具有内在收敛特性和进化特征的自然算法
如何与深度学习结合?
AI芯片是加速AI算法执行的利器