粉丝的关注,涉及到许多因素,比如该用户所发出的微博信息是否新奇,是否能够引起粉丝的共鸣,以及该微博发布的时间与粉丝登录微博的时间相差是否过大等等。如果能够找到定量的方法来描述,具有何种特征的用户其发布的微博信息最能引起其粉丝的关注,那么对于广告营销,信息的精确定投都具有非常重大的意义。若想研究微博用户的影响力以及影响力是否与用户行为偏好有关,必须对大量微博用户进行宏观的研究,选择用户数目多,每日微博信息发布量大,而且多为中国用户的新浪微博最为具有代表性。而且对于社交媒体的研究是近年来的热门,但是基于Facebook和twitter的研究数目不少,但是基于新浪微博的用户行为分析,或者统计建模较少。
12选题意义与研究目的
如果能够定量分析微博信息传播的途径和一般规律,有助于利用微博作为信息发布的媒体平台,将有信息的影响力和实效性发挥到最大。如今信息井喷,获得信息的渠道日趋便捷和迅速的前提下,能够做到信息的精准投放,对于商家和客户都是至关重要的。因此基于新浪微博,对于微博用户的行为规律进行统计建模与分析很有意义。我们采信了由Da
ielMRomero等人的研究成果,对于微博用户,“有影响
4
f力与粉丝众多没有太强的相关性,真正的影响力表现在粉丝的转发行为中”1。在本研究中,为了区别于不浏览,或者普通阅读微博的行为,我们将粉丝对于微博的转发或者评论定义为行为偏好,以此来显示该微博对于粉丝的影响力,我们可以通过从微博的原创作者出发,讨论其粉丝对于其全部微博转发或者评论的比例,来定量所谓的微博用户行为偏好,通过统计中常见的Logistic回归来描述这个转发评论的二元变量,那么又涉及到选择解释变量的问题。显然,粉丝是否转发或者评论某条微博,最直接的因素就是粉丝是否对该微博产生了强烈的兴趣,这种兴趣强烈到他希望自己的粉丝同样可以阅读到。那么如何才能定量地描述粉丝阅读微博的兴趣呢?目前统计学中比较常用的方法,是由DMBlei在2002年提出的LDA主题模型,即Late
tDirichletAllocatio
潜在狄利克雷分配模型。该主题模型是一种语言模型,对自然语言进行建模,常用于信息检索。LDA模型是用一个特定的词频分布来刻画主题,并认为一篇文章、一段话、一个句子都是从Dirichlet分布生成。然而由于Dirichlet分布随机向量各分量间的弱相关性,使得所分析文档的潜在主体之间也必须是不相关的,这与许多实际问题并不相符。而且使用LDA主题模型必须要有一个语料库,语料库设计的r