Figure1展示了一个简单的有等级约束的线性模型。第一个权重矩阵A时对单词的一个搜索表。将词表示平均后得到文章的表示,在反过来馈入一个线性分类器。文本表示是一个隐藏层的变量,它很可能会被重新使用。本文使用softmax函数来计算预定义类别的概率分布。对于一个集合的
N
N
N个文档,这会导致最小化各个类别的负对数似然:
−
1
N
∑
n
=
1
N
y
n
l
o
g
(
f
(
B
A
x
n
)
)
-\frac{1}{N}\sum_{n=1}^{N}y_nlog(f(BAx_n))
−N1n=1∑Nynlog(f(BAxn)) 式子中的
x
n
x_n
xn是第
n
n
n个文档的标准化的bag特征,
y
n
y_n
yn是标签,
A
A
A和
B
B
B是权重矩阵。这个模型在多CPU上进行异步的训练,使用随机梯度下降和一个线性衰退的学习率。
层级softmax
当类别的数量很多时,使用线性分类器的计算成本太高。更精确的说,计算的复杂度为
O
(
k
h
)
O(kh)
O(kh),
k
k
k时类别的数量,
h
h
h时文本表示的维度。为了提升我们的运行时间,本文使用了一个基于哈夫曼编码树的层级softmax。