语义分析作为整个系统最重要的模块,能够挖掘出在信息预处理模块中所获得的信息,所运用的技术主要有追踪热点、关联分析与趋势分析等,能够有效实现网络舆情监控和热点追踪的功能。在此过程中,所使用信息分析的方法基于向量空间模型,采用多种组合式的数据挖掘技术和算法,更好地对文本信息分析和处理,保证了整个系统基于用户需求,即使进行策略调整,使整个系统达到运行的最佳状态。二、网络舆情信息的预处理技术手段模板配置法、网页的文本结构化信息处理法等方法是主要的网络舆情信息数据的预处理方法,但模板配置法需设定每个信息源的网站模板,使工作量和维护量过大,而网页的文本结构化信息处理法利用页面结构分析与智能节点分析转换的方法,在自动抽取数据后,有效识别与清除网页内的无效内容,所以一般来说,网络舆情系统采用文本结构化处理方法。Web网页一般包括关注内容和掺杂内容两部分。关注内容是网页的主要内容,在一个网页当中,其新闻内容、帖子内容等都属于网页的关注内容,而掺杂内容指的是诸如搜索条、广告灯与主体内容无关的信息要素。所以,在信息预处理中,如何快速处理掺杂内容,成为网络舆情分析系统的重要技术之一。首先利用HTML网页标签树实现网页净化,有效地降低网页结构的复杂性,缩减网页空间,从而节省后续分析过程的时间和空间花费。三、网络舆情分析系统的语义分析技术网络舆情分析系统语义分析技术,主要对各项新闻热点敏感话题等进行分析,是整个网络舆情系统的最关键技术,是影响网络舆情信息分析结果是否准确的重要手段。语义分析技术包含文档特征库、算法库、分析结果库等数据库,并采纳了数据挖掘中的文本分类和文本聚类的算法,对已完成预处理之后的网络舆情信息进行分析和处理,产生相应的分析结果库。而算法库以及算法调度和线程处理是语义分析模块的主要工作31算法库管理算法库能够有效地为每一处理线程生成一种恰当的算法供算法调度程序进行使用,在接收管理员的设置和查询要求之后,将所设置的特定信息和各种特殊信息要求存储到算法配置信息库中并进行恰当的管理。32算法调度算法调度主要负责进程的分配以及多线程的管理工作,是整个舆情分析的动力构成。通
f过各种手段,控制线程的运行。而且系统为每个用户的个人进程进行控制,并可以为一个用户同时处理多个不同的进程。33线程处理每一个的线程处理,就是一次进行文本分类或文本聚类的过程,其中包括了权值向量r