全球旧事资料 分类
表示的(它在0处有一个奇异值,因此在实际的实现中,参数是趋于零的集合,例如NGS06)。相似的,的全条件可以通过等式70得到:
潜在话题常常来源于高阶的共现,例如与等等。
1
共现的

共现代表着

直接的次阶共现关系,
f注意两个分布

直接含有LDA吉布斯采样的统计参数。可以使用蒙特卡和的值。例如:自适应舍选抽样(ARS,它是提供给这些分布
洛模拟的方法从这些分布中采样,从而计算
GiWi92),一个从任何log密度抽样的方法得到,的一个参照。
63高效估计作为抽样的替代品,存在一种高效的非迭代方法,能够通过狄利克雷精度找到的最大似然估计。它基于适合于狄利克雷分布密度的距和多项式参数的距Mi
k00。在坍塌的LDA吉布斯采样中,参数过比率不能够被直接访问,而是使用了点估计,可以通的模型统计量获得。使用Mi
k00的结果,我们得到:
这个估计方法能够比任何迭代方法或者基于抽样的方法更快捷,如果满足条件,得到的超参数值比真实的参数值要小10(显著地过低)。如果不满足,2估计将剧烈下降。7分析话题模型话题模型,如潜在话题与观测到的实体之间的LDA估计的软关系,例如词语、文档,但是在模型扩展时也包括作者等。这些关系是很多与信息处理和语言建模相关操作的基础。在本节中,我们举出几个使用给定语料的话题结构的方法,从而在(1)估算中看不见的文件(正在查询)的话题结构,(2)估计隐含的已估计话题聚类的质量,(3)根据已估计的参数,推断新的关联关系,例如,词语、文档、作者之间的相关性。为此,使用了LDA的示例,其中提供了有关当前文档中已有的话题信息参数集合以及与这些话题相关的术语参数集合。71查询LDA模型中的查询是指查询与检索文档相关的操作。在话题模型中,有两种方法对结果文档实施排序:(1)通过相似度分析,(2)通过可预测似然法。两种方法都依赖于对查询文档或文档的话题估计。查询抽样。一个查询仅仅是一个简单的词向量,在给定查询的词向量和LDA模型
的情况下,通过估计话题配文档。考虑是一个文档
2
的后验分布找到已知文档的匹
,与等式83中的可预测似然法的正确词项相同,并与等
,而不是。
这就是为什么这个方法不能被应用到中,其中
f式85中的相同。为了找到一个全新文档的必要数量,我们能够使用Hofm99或SSR04的方法来排他性地运行关于新文档的推理算法,与等式79类似。首先,我们通过随机给词语分配话题r
好听全球资料 返回顶部