算法步骤 ①划分 将样本集划分为考试集
X
N
T
X_{NT}
XNT和训练集
X
N
R
X_{NR}
XNR两部分。 ②剪辑 用训练集
X
N
R
X_{NR}
XNR中的样本对考试集
X
N
T
X_{NT}
XNT中的样本进行近邻法分类,从
X
N
T
X_{NT}
XNT中除去被错误分类的样本,剩余样本构成剪辑样本集
X
N
T
E
X_{NTE}
XNTE。 ③分类 用
X
N
T
E
X_{NTE}
XNTE对未来样本进行近邻法分类。
多重剪辑方法(MULTIEDIT) ①划分 把样本集随机划分为s个子集,
X
1
,
X
2
,
.
.
.
,
X
s
,
s
≥
3
X_1,X_2,...,X_s,\quad s\ge3
X1,X2,...,Xs,s≥3。 ②分类 用
X
(
i
+
1
)
m
o
d
(
s
)
X_{(i+1)mod(s)}
X(i+1)mod(s)对
X
i
X_i
Xi中的样本分类,
i
=
1
,
2
,
.
.
.
,
s
i=1,2,...,s
i=1,2,...,s。比如,如果s=3,则用
X
2
X_2
X2对
X
1
X_1
X1分类,用
X
3
X_3
X3对
X
2
X_2
X2分类,用
X
1
X_1
X1对
X
3
X_3
X3分类。 ③剪辑 从各个子集中去掉在②中被分错的样本。 ④混合 把剩下的样本合在一起,形成新的样本集
X
N
E
X_{NE}
XNE。 ⑤迭代 用新的样本集
X
N
E
X_{NE}
XNE替代原样本集,转①。如果在最近的m次迭代中都没有样本被剪掉,则终止迭代,用最后的
X
N
E
X_{NE}
XNE作为剪辑后的样本集。
算法步骤 ①将样本集
X
N
X_N
XN分为两个活动的子集
X
S
X_S
XS和
X
G
X_G
XG,前者称作储存集Storage,后者称作备选集GrabBag。 ②算法开始时,
X
S
X_S
XS只有一个样本,其余样本都在
X
G
X_G
XG中。 对
X
G
X_G
XG中的每一个样本
x
x
x,如果用
X
S
X_S
XS中的样本可以对它正确分类,则该样本保留在
X
G
X_G
XG中;否则移到
X
S
X_S
XS。 以此类推,直到没有样本再搬移为止。 ③
X
S
X_S
XS中的样本作为代表样本,对未来样本进行近邻法分类。