MBA论文:新闻事件的文本挖掘

Introduction

21世纪,网络用户的参与方式由仅为新闻网站被动推送变为了时效性、交互性都更广的以网络用户为传播主体的信息传播方式。这对信息的传播与接受方式两者都有着根本性的影响。
网络热点指的是网民在网络上所关注的新闻、信息。网民对这些热点问题的交互动作,如评论、转发等,扩大了热点的影响范围。诸如此类倾向性的二次或多次传播,达到一定程度后,反过来又会影响热点问题的发展。因此,从大量信息中提取出网民关注的网络热点,进而对热点进行监控、管理,是一件有意义的工作。
由于网络热点属于的短文本,具有如下特征:
1)稀疏性,样本长度短,样本特征稀疏。
2)实时性,实时发送和接收,数量异常庞大。
3)不规范性,表达简洁,用语极不规范。
4)交叉性,同一个会话,可能存在多个话题,而一次会话中不同话题内容相关性较小。
5)扩散性,时序性强,易发布扩散。
6)数量巨大。
舆情分析的几个主要概念。因此,针对长文本而设计的聚类算法不适用于对短文本的聚类。短文本样本长度短,特征系数、特征信息很少,特征表示困难。因此本文着眼于短文本的特征,提出针对网络热点特征信息的不完全聚类算法。

下面是舆情分析领域的几个基础术语的定义,也可认为是研究方向,也为文本挖掘的任务和文献查找提供了思路。

时间:2016-06-08 21:29点击: 次来源:网络作者:佚名评论:- 小 + 大

Related work

从1996年话题发现领域在国际上被重视以来,最重要的成果是二十世纪末由美国国防高级研究计划局(DARPA)、马萨诸塞大学(University
of Massachusetts)、卡耐基-梅隆大学(Carnegie Mellon
University)和Dragon Systems公司联合发起的话题发现与跟踪项目TDT。
与一般的信息检索或信息过滤不同,TDT关心的话题不是那些大的领域(如美国对华政策)或一类事件(如恐怖活动),而是一些很具体的“事件”。TDT评测会议对“话题进行了定义:“Topic话题”是核心事件或活动以及与之直接相关的事件或活动;“Event事件”通常由某些原因、条件引起,发生在特定时间、地点,设计某些对象,并可能伴随某些必然结果。”通常情况下,可以认为“topic”就是对若干“event”相关报道的集合。
随着话题检测与追踪的发展,该领域的研究重点集中于构建更加智能化、能够具备自学习自适应机制的算法和技术,这是对TDT系统的高层次的要求。传统的仅仅基于概率统计的技术无法实现这一要求,因此概率统计与自然语言处理的融合,在TDT系统的研究中将有重要的应用。目前,已经有很多TDT领域的应用已经在逐步融合自然语言处理技术,在一定方面弥补了概率统计处理某些问题的不足。但自然语言处理技术在TDT项目中的应用仍旧不成熟,统计学原理仍旧占据主导地位。这是TDT领域未来的一个发展趋势。
对于TDT领域的某些研究课题,是目前自然语言处理技术和概率统计技术仍旧无法很好地解决的,比如报道的时序性因素。YimingYang和James
Allan是最早将时间因素未做TDT研究的影响因素。他们几乎在同一时间提出某一报道与较近时间的报道属于同一话题的可能性较大。时序关系是报道、网络信息的一个重要属性,对时序关系的有效利用将使TDT相关研究和技术取得更好的结果。因此,利用时序特征解决话题检测和跟踪并且不断在研究中发现新的重要影响因素也是TDT的发展趋势。
同时,由于舆情监控面对的是网络上纷繁复杂的各色信息,因此,如何将TDT研究投入到实际应用中,结合应用对TDT研究进行改进,也是舆情分析项目研究的关注点。

舆情:通常是指较多群众关于现实社会及社会中各种现象、问题所表达的信念、态度、意见和情绪表现的总和;简而言之就是社会舆论和民情。一个严格定义是:舆情是指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为主体的民众对作为客体的国家管理者产生和持有的社会态度。舆情主要指民众对社会各种具体事物的情绪、意见、价值判断和愿望等。

文本挖掘是挖掘的核心技术,将其文本聚类与分类等技术应用到新闻主题的检测与跟踪中,能自动在线检测内容不断更新的网络新闻主题,这是一篇新闻事件的文本挖掘的内容,接下来让我们一起来看看吧~

Key technology

文本聚类中常用基于划分的聚类算法,KMEANS是该类算法中最经典的一种。KMEANS基本思想是随机给定K个簇中心,按最邻近原则将待分类样本分到各个簇,再按平均法重新计算各个簇的质心,从而确定新的簇新,循环迭代,直到簇心位置稳定。
为了实际测试基础算法在处理短文本的表现,本研究选取了10个话题1000条数据,噪音数据1000条数据,共2000条数据进行实验。首先选取500条真实微博数据,不加入噪音数据,其真实话题数为3个,通过KMEANS聚类算法得到话题发现的结果如下,运行时间为20s。

图片 1

image.png

为了测试该算法在加入一定量噪音后的效果,选取1000条已有话题归类的数据,其真实话题数为10个,少量噪音数据。通过KMEANS聚类算法得到话题发现的结果如下

图片 2

image.png

同时,因为KMEANS聚类的结果与初始点的选取以及k的取值也有一定的关系,论文的主要内容是为了测试聚类算法的效果。为了测试KMEANS对初始点和类别数的敏感程度,并消除这种敏感,论文分别修改了k的取值以及对程序的多次运行,程序多次运行平均结果如下

图片 3

image.png

运行结果是在已知类别数的情况下,KMEANS运行结果,可以看出,结果是比较理想的。由上述可知,在噪音数据数目比较少时,KMEANS聚类效果比较理想。但是,实际应用中,噪音数据的数量是特别大的,因此,论文逐步增加了噪音数据的数量对算法表现进行测试。
为了测试该算法在增加噪音数量后的效果,选取1000条已有话题归类的数据,其真实话题数为10个,加入200条噪音数据。对这种数据组合同样进行上述的消除初始点和k取值的影响,通过KMEANS聚类算法得到话题发现的结果如下表,平均运行时间180s

图片 4

image.png

从以上数据可以看出,当有17%左右的噪音值时,程序在文本话题归类正确率已经降低了,这是因为在孤立点逐渐增多的情况下,孤立点虽然不构成话题,但是其中有很多通用词,这种词可以使得一些孤立点文本被错分为某个类别的中心点。从表3.5的运行结果可以看出,有一些类别正确率甚至不到50%,总的聚类正确率大约70%。
有很多人对传统聚类算法进行了改进,但是这些改进都是建立在噪音数据时少量的基础上,逐步增加噪音数据的数据量,对KMEANS聚类算法的算法效果和效率进行测试,当噪音数据取到1000,与规律数据数量相同时,通过KMEANS聚类算法得到话题发现的结果如下表数据所示。

图片 5

image.png

随着噪音数据的增多,程序的聚类正确率越来越差。这是因为噪音数据的增多,无关向量维度的作用远远大于相关文本维度,因此,导致很多类别中噪音数据取代与该话题相关的文本数据成为了该类别的中心点,从而造成很多与之相似性高但是不属于该类别的点被划分中这一类别中。
由上面的结果可知,在噪音值逐渐增大时,经典算法效果比较差,已经无法满足聚类要求。经典算法基本都有以下缺点。
1)大值属性往往左右样本间的距离,所以很多经典算法不适用于有大值属性存在的数据集。

2)对初始值或样本的输入顺序敏感,不同的初始聚类中心或样本的输入顺序不同,
产生的聚类结果差别很大。
3)对于不同算法,局部最优可能不是全局最优,大部分算法当初始聚类中心落在局部值最小附近时,
算法的结果生成的是局部最优解而非全局最优解。
4)算法采用同一类中的所有对象的平均值作为聚类中心,所以算法的效果受孤立点的影响很大。

总而言之,KMEANS算法的优点是步骤简明、收敛条件明确,收敛效率高、易应用于大规模数据,缺点为孤立点敏感和初始输入值敏感。不完全聚类算法的目的就是解决KMEANS的两个不足。

事件(Event ):在特定时间、特定地点发生的事情。

一、引言

New idea

主题(Topic):也称为话题,指一个种子事件或活动以及与它直接相关的事件和活动。

近年来,随着互连网的飞速发展和信息传播手段的不断进步,造成了大量的文本数据累积,其中很大一部分是短文本数据。这些数据中有很大一部分是只包含50-100个词的短文本数据,如文章摘要、电子邮件、图片标题、产品描述等。网页上的大部分信息都是短文本信息。文本挖掘技术对于从这些海量短文中自动获取知识、具有重要意义。本文介绍了文本挖掘在新闻文本挖掘中的应用,分析了新闻事件挖掘的研究现状。

专题(Subject):涵盖多个类似的具体事件或根本不涉及任何具体事件。需要说明的是,国内新闻网站新浪、搜狐等所定义的“专题”概念大多数等同于我们的“主题”概念。

二、文本挖掘概念

热点:也可称为热点主题。热点和主题的概念比较接近,但有所区别。其主要特点如下:

文本挖掘是采用计算语言学的原理对文本信息进行抽取的研究和实践文本挖掘可以对文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等。Web文本挖掘和通常的平面文本挖掘有类似之处,但是文档中的标记给文档提供了额外的信息,可以借此提高文本挖掘的性能。

l通常是一个主题,包含种子事件及相关报道;

三、文本挖掘在新闻文本挖掘中的应用

l和时间相关,通常指某段时间内的热点,例如当天热点、一周内热点;

“新闻的处理,是-种对事实的选择、安排、解释等意义化过程”,作为文字传播的一种特殊形态,新闻在语言表达上有着较为明显的个性特征,如篇章短小精干、表达客观公正、语言准确简洁等。新闻专题是指围绕某一个突发的新闻事件或某一个广泛受关注的问题提供详细、深入的资料。这样的专题信息目的明确、信息丰富,让人一日了然地清楚整个新闻事件的前因后果和来龙去脉,能够较好地满足读者的需要。但通常情况下,这些新闻专题都是经过专业人员加工处理的,即人工归纳到二起。新闻事件挖掘的目的是,是借鉴文本挖掘技术、文本分类和聚类技术,实现对新闻资料的自动组织、生成专题,以满足网络用户检索新闻信息的需要。专题的生成涉及到新闻事件的探测以及对新闻事件的跟踪。

l和主题某段时间内的文档数量相关;

四、新闻事件挖掘的研究现状

热点可以分为绝对热点和相对热点。其中,绝对热点为在某段时间内文档数量超过某个固定阈值的主题;相对热点为按照某种排序方式排名靠前的若干个主题。

目前对于新闻事件的挖掘主要包括以下几类问题:

主题检测任务:从信息流中自动检测出最新的主题,并将报道及时地按照主题组织起来,是主题检测和追踪(Topic
Detection and Tracking,TDT)的一个任务。

主题发现与跟踪(TopicDetectionandTracking,TDT)

热点自动发现任务:也可叫做热点检测,就是如何从不断涌现的网上舆情中及时发现新发生的热点信息,并对其进行持续追踪。热点检测任务可以在主题检测任务的基础之上,加入时间和数量两个因素的分析来解决热点发现的问题。

主题发现与跟踪旨在开发一系列基于事件的信息组织技术,以实现对新闻媒体信息流中新话题的自动识别以及对己知话题的动态跟踪。该研究作为一项1997年开始的公开测评而成为自然语言处理的→项研究热点。TDT包括五项子任务,即:主题分割、话题跟踪、新事件发现和报道关联发现。

热点分析任务:在热点自动发现任务的基础上,对自动发现的热点进行深入分析,从多方面、多角度综合分析和展现当前的舆情热点。研究内容包括:舆情热点的关键词和摘要提取、情感分析、传播分析、趋势分析和关联分析等任务。

主题分割主要采用相同词语数目和词语密度的方法,其优点在于简洁性和高效性,不受领域的限制。目前已有TextTiling算法等方法用于主题的分割。采用遗传算法对TextTiling算法中的参数进行优化,使得同→主题内的段落之间的总差异应尽可能地小,而不同主题间的总差异应尽可能地大。也有研究采用遗传算法来直接寻找主题的优划分。骆卫华提出了基于分治多层聚类的话题发现算法,其核心思想是把全部数据分割成具有一定相关性的分组,对各个分组分别进行聚类,得到各个分组内部的话题,然后对所有的微类在进行聚类,得到终的话题。

文本情感分析:指通过计算机技术自动分析文本信息所包含的情感因素,例如喜欢或讨厌、正面或负面、快乐或悲伤、愤怒和恐惧等。在不同的文献中,情感分析也被称作情感分类、褒贬分类、观点提取、观点摘要、情绪分析、情感识别、情感计算等。同时,情感是一个很广泛的词汇,在不同场合研究者往往采用不同的词汇来表达,比如观点(Opinion)、情感(Sentiment)、情绪(Emotion/Affect)等。

热点趋势检测(EmergingTrendDetection,ETD)

文本褒贬分析:指通过计算机技术自动分析文本信息所包含的褒贬因素,即褒义或贬义,有时也包括例如喜欢或讨厌、正面或负面等因素。本任务是文本情感分析任务的一个子集,即文本情感分析研究的情感因素范围更广泛,不只包括褒贬因素,还包括快乐或悲伤、愤怒和恐惧、温馨或诧异等情绪因素。

热点趋势检测用来自动识别热点主题,从而识别主题趋势的变化。热点趋势检测主要包括三个部分:主题结构的识别,主题出现的检测和主题特征分析。总结了目前研究的ETD系统和商业的ETD系统,其使用方法大多数以关键词的词频分析为基础,形成相关主题的发展趋势。例如,采用关键词项词频分析的方法,寻找芯片封装领域内的技术发展规律。对于这类问题需要优化关键词的选择,看哪一个或者哪一些关键词与该主题上的关系为密切。也有的研究使用序列模式挖掘来识别短语,生成短语的历史图,使用形状查询来识别指定趋势的短语。

主题检测与追踪(TDT)的三项主要任务分别为:

该问题主要采用文本挖掘技术,同传统的人工智能方法相结合,对于时序文档集的关联规则的进行挖掘,提供相应事件发生的预测规则。

l新闻报道切分任务:将连续的广播、电视新闻节目的语音或文字记录分割为不同的报道;

很多研究根据互联网上的新闻稿来生成股票价格指数的规则。Wuthrich使用专家的先验知识,通过对过去的新闻中出现的关键词组的权重和对应的值产生可能性的规则,再利用这些规则对当天的新闻进行股票指数的预测。将关键词组转换成权重,采用基于规则、近邻和神经网络的方法。Feldman等人使用多种分布模型对路透社的2万多篇新闻进行了挖掘,得到主题、国家、组织、人、股票交易之间的相对分布,揭示了一些有趣的趋势。而Mittermayer则自动对新闻稿进行预处理,将它们分成不同的新闻类型,其每→类都对股票价格升降有特定的影响,从而得到对应的交易指导规则。

l主题检测任务:识别出系统未知的主题,并将相关报道也识别出来;

五、结论

l主题追踪任务:监控新闻报道信息流以发现与某一已知主题有关的新报道。

文本挖掘是挖掘的核心技术,将其文本聚类与分类等技术应用到新闻主题的检测与跟踪中,能自动在线检测内容不断更新的网络新闻主题,提高了处理的速度,能及时提取更多有价值的信息给用户,这是一个具有十分重要意义的课题,这项研究还需要进→步的深入。短文本挖掘技术是文本挖掘中的一个新兴的方向,针对于短文本特点的方法有待于人们的进-步研究。

新闻主题检测就是从新闻信息流中自动检测出各个主题,将每篇新闻报道划归到相应的主题,并且能够实时地针对新到的新闻报道检测新的主题。

网友们,新闻事件的文本挖掘就到此为大家介绍完毕了,祝大家能够获得有用的知识。

新闻主题追踪则是从新闻报道流中追踪那些讨论目标新闻主题的相关报道,目标新闻主题通常没有明确定义,而是仅由少数(通常2-4个)新闻报道代表,系统根据这几个新闻报道可以学习到一些关于该主题的先验知识。

下面介绍一款舆情行业很专业的产品,飔拓的智能交互舆情平台,可实现全网24h实时监测,可与平台进行语音交互,进而免去双手的操作环节。