强微博信息的可靠性,通过人际关系获得信息将成为这个世纪的主流。那么究竟符合何种特征的微博用户能在自己的社交网络中拥有较强的影响力呢?本研究围绕着建立微博用户影响力模型的初衷,以微博用户的粉丝对该用户微博信息进行的评论与转发的频率作为用户对粉丝的影响力指标,试图从微博用户与其粉丝行为偏好的相似性来解释用户对粉丝的影响力形成。本研究的数据收集利用了新浪微博公开的API预设函数,通过Java语言开发包收集了以目标用户为中心,利用新浪微博平台曾广泛邀请并认证名人用户的特点,聚焦于微博用户实际交互的粉丝圈,计算了用户与粉丝圈的名人好友成分向量,并且原创了余弦距离算法,来压缩高维的成分向量,实现数据降维,先利用统计的多元统计量、非参数KruskalWallis检验以及系统、动
态聚类分析验证了算法区分用户行为偏好相似度的准确性,再通过将粉丝是否转发或者评论作为Logistic回归的因变量,利用算法得到的余弦值和向量顶点距离作为解释变量,较为成功地拟合了Logistic回归模型,证明余弦距离算法能够作为微博用户影响力的定量解释,并且算法的结果可以讨论用户行为偏好的相似性。研究者将主成分分析的降维效果与余弦距离算法比较,发现从建模角度降维效果类似,而且余弦距离算法有更方便解释的优点。利用该算法判断用户与粉丝行为的相似度,比起同类可
2
f以计算用户行为偏好的LDA主题模型节省了语义库的收集成本,具有较好的理论价值和实用性。通过余弦距离算法得到微博用户行为的相似性,将有助于发掘真正有影响力的微博用户来推广信息,同时为开发根据用户兴趣来进行微博信息精准过滤的应用提供了方法论。
关键词:余弦距离聚类分析Logistic回归数据降维
1引言
11新浪微博简介
一种传播媒介要普及到5000万人,广播用了38年,电视用了13年,互联网用了4年,Microblog这种社交媒体用了14个月。有人在平台上做过调研,如果美国人突袭本拉登时,如果本拉登登录Microblog,就可能看到巴基斯坦地区的热门信息:今日伊斯兰堡上空出现许多不明战斗机,而幸免遇难。Microblog,中文译作微博,即微型博客的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过Web、Wap以及各种客户端组件个人社区,以140字左右的文字更新信息,并实现即时分享。最早也是最著名的微博是美国的twitter,根据相关公开数据,截至2010年1月份,该产品在全球已经拥有7500万注册用户。2009年8月份中国最大的门户网站新r