全球旧事资料 分类
来初始化算法,然后循环地进行吉布斯采样更新(针对局部词语的i)3:
其中,新变量
表示词项t和话题k在未发现的文档中出现的次数。这个等式提供了一和的贡献比将支配多项式集。结果,经过从分布中重复进行抽样,
个完美的吉布斯后验采样的工作实例:在随机选取中,并不可能聚类的的较出现,高度估计的词语话题关联
并更新,话题词语关联集合传播到文档话题关联。注意狄利克雷超参数的平滑影响。应用等式85,得到未知文档的话题分布:
这个查询过程适用于未知文档的完全集合,通过
跨越的未知文档实现。
相似度排序。在相似度方法中,查询文档的话题分布被估计,并且与合适的相似度衡量允许排序。当话题的分布与行的形式相同,我们能够将查询与语料库中的文档进行比较。一个简单的度量方法是KullbackLeibler散度KuLe51,它由两个离散随机变量X和Y定义,其具体表达式如下:
KL散度能够被解释为交叉熵和X熵之间形成的区别。例如,知识Y增加到知识X中的信息。因此,仅仅当分布X和Y相等时,KL散度才等于零。但是KL散度不是一个适合的距离度量,因为它并不对称。因此一个平滑的,对称的拓展Je
se
Sha
o
距离被逐渐采纳:
其中平均值

可预测似然排序。排序的第二种方法是计算由查询生成的语料库中文档的可预测似然值
4

3
使用等式84和等式85,等式92中的公式也能够与模型的参数

联系起来。另外,对等式92
中的采样进行简化,可以忽略与查询话题词项关联关系。因此。4这里使用了贝叶斯法则和非条件文档和话题概率。
,并且
,因为
f其中,是文档m的长度,是语料库中与话题k相关联的词语数,它们都用于吉布斯采样。通常来说,等式98是话题向量之间的带权重标量乘积,并对短文档和强话题进行审查。
fr
好听全球资料 返回顶部