超参数的意义,并提供某种方法在数据中估计它的标量值。61解释通常意义上,狄利克雷超参数对多项式参数有平滑影响。通过降低和的值,减少LDA中的平滑影响,最终会导致更加直接的话题关联,因而和将变得更加稀疏。由控制的的稀疏性说明模型倾向于赋予每个话题较少的词项,又一次影响模型在数据中已有的话题数量。这意味着为了发现词语同属一个话题,词语之间的“相似”度需要很高(即是它们在不同的上文中共现的频繁程度1)。对于稀疏话题,如果K值更高,模型会与数据更加匹配,因为模型将会最大限度地将多个话题赋予一个词项。这就是模型的学习K值,例如不带参数的贝叶斯方法TJB06的其中一个原因,K值强烈地依赖于超参数。由控制的稀疏度意味着模型倾向于用更少的话题刻画文档。当超参数、话题数量和模型行为之间的关系是相互的,它可形成具有特定性质的模型,以及对数据的内在特点进行分析。模型质量的试探性,报道性,良好性(见下章,用于分析方法),,并且GSt04。另一方面,给定话题数量K,从数据中学习和可以用于提高模型质量(指的是估计方法的目标),更进一步说,超参数估计可以揭示建模数据集的特定属性。估计可以指示不同文档的(潜在)语义是相当程度的不同,并且对的估计暗示了一般性的共现词语组有多大。但是,估计超参数的解释并不总是简单的,对文档内容的特定群集的影响尚未得到彻底调查。62抽样了解了很多从数据中学习狄利克雷参数向量的方法,但很遗憾目前还不存在正确的闭合解。最精确的方法是迭代近似方法。Mi
k00对此进行了全面的概述。事实上,学习狄利克雷参数的最好办法是使用吉布斯采样(参考等式79)已经得到的结果。例如话题相关性的计数统计信息而不是多项式参数和,对它们进行积分分析。这说明超参数的最佳估计是狄利克雷多项式分布的参数(参考等式52)。对于对称的狄利克雷分布,对于LDA更加普遍,在吉布斯采样中运行良好的和估计,却在文字里并未明确的说明。因此这里推荐使用的贝叶斯方法。狄利克雷分布没有减小运算的共轭先验分布,因此不会选择先验。但是,与狄利克雷处理常常一起使用的先验分布是gamma分布,,这种选择被用在了狄利克雷分布上。对于的吉布斯采样的全条件可通过以下方式得到:
其中,使用等式74中的
,
,含有gamma分布的参数:形状和标量。
这些参数可以通过关于可能的区间和的先验知识进行选择。某个具体的参数集合是“引用”先验,EsWe95中r