目前的AI都是旁观型的AI。
以具体的物体“包”为例,人对于这一概念的理解往往能直击本质,而AI目前仅仅从外观上来判断。
人之所以能举一反三,也正是因为理解了本质。
具身智能面向构建一种智能系统,类似人的智能,它考虑:
智能体能够与现实世界交互的过程中,完成学习和理解,这一能力称为具身智能。所需要涉及的任务不再是静态的。
仿真器:
前两个数据集关注场景,第三个数据集关注物体。
具有具身智能的视觉。
3D视觉的知识图谱:检测出一些知识;
交互感知:存在遮挡,会把东西拿走再看;
人类行为理解;
多模态导航与问答系统;
视触融合;
基于人机交互的人类行为理解;
人工智能在食品领域的渗透比较低。
用计算方法综合处理多媒体食品数据,以开展面向食品的图像识别、检测和多模态学习等任务,解决农业、食品产业和营养健康等不同领域的问题。
无论是识别还是检测,都离不开细粒度的特点。
类内方差大、类间方差小:一道菜本身会呈现出不同的形式,不同的菜又可能会呈现相近的样子。
在食品计算领域,细粒度问题更加复杂,食品本身的结构性比较弱,很多时候难以通过匹配特定区域的特征来作出分类。