人工智能和机器学习在许多任务中体现出显著的性能,并且渗透到许多不同的领域和学科,其中一些领域需要高度的问责制和透明度。因此需要对机器的决策和预测进行解释以证明可靠性。文章对不同研究工作所显示的可解释性进行了综述,并对他们进行了分类。而且对医学研究中的可解释性进行同样的分类。
ML的影响范围很广,尽管结果看起来很完美,但是不可解释性在一些关键方面是安全隐患(如驾驶和医疗)
谁来负责?我们能解释出问题的原因所在吗?我们是否知道原因以及如何进一步利用它们?
通常被认为是“显而易见”的。
显著性方法通过分配反映输入部件对该决策贡献重要性的值来解释算法的决策。
可以采用概率和超像素的形式(如热力图)。
模型f对输入x做出了预测y=f(x),对于某些度量v,通常v(x)的较大幅度表示分量x示输出y的重要原因。
通过分解的显著性方法。
观察神经元或神经元集合的刺激的可解释性方法称为信号方法。
a)输入重构的特征映射和反演???
b)激活优化
c)信号激活的其他观察
这种形式的可解释性采取了人类可以自然掌握的语言块的形式。
A->B,从其中可以提取逻辑语句的ML模型被认为示明显可解释的。
为了研究一个感兴趣的,特别是行为不被很好理解的复杂系统,参数模型等数学公式可以帮助简化任务。
a)线性 :最简单的可解释的预定义模型。
b)一般可加模型
c)内容-主题特定模型
对于有100个维度的病人属性,从中区分出饮食习惯,运动频率和睡眠习惯于心脏病关系最关键,从而建立A->B的关联,得到直观解释。
方法:PC(principal components),CCA(Canonical Correlation Analysis), SVCCA(Singular Vector Canonical Correlation Analysis), TCAV(Testing with Concept Activation Vectors)
本地化,梯度和扰动
这些方法依赖于微积分中的小变化dx的概念,以及度量空间中一点的领域。
a)对于输入噪声或数据点领域的敏感性
将x+δ表示为x的—个略带噪声的版本。如果f (x +δ)产生正确的预测,模型是局部忠实的,否则,模型是不忠实的,显然这种不稳定降低了它的可靠性。
…
b)对数据集的敏感性
一个模型可能对训练数据集{x}敏感。
a)定量最大化可解释性
b)激活优化
可视化形式解释
a)数据在目录中
b)不完全性
a)实现不变性
b)输入不变性
a)基于应用的:如果人类A给出解释X,人类B执行相同的工作表现的更好,那么A就给了B一个有用的解释,那么评估是基于应用的。假设A现在是一个ML模型,那么如果人类B在给定X后以更高的性能执行同样的任务,那么该模型高度可解释。
b)基于人类的:人类A给出一个很好的解释X有挑战性,可能是因为表现难以评估,或者解释本身需要专业知识。可能会提出一个简化的或者部分的问题。
c)基于函数的
A.解释的操纵
B.不完全约束
C.有噪声的训练数据
D.临床医生和从业人员的未来方向
E.算法开发人员和研究人员的未来方向