An effective information representation for opinion-oriented applications. ; CUHK electronic theses & dissertations collection
当今,越来越多的用倾向于使用论坛、博客、脸书等在线工具来表达关于商品、电影和政治等话题的观点。这些观点不仅可以帮助用进行决策,同时也为各个商业和社会领域提供了具有重要价值的反馈信息。因此,面向观点应用成为了当前最活跃的研究领域之一,其中包括观点检索,观点摘要,观点问答。面向观点应用与面向事实应用的根本区别是信息需求的不同,分别是传统的客观信息和主观信息。所谓主观信息是指对于某个特定目标的观点或评论。为了表示主观信息,应该综合考虑观点性、主题相关性,以及观点与主题之间的关联。现有的基于词袋的表示方法将词作为描述客观信息的基本语义单元,它可以有效的表示主题相关性以满足客观信息的需求。而主观信息需要同时考虑观点性和主题相关性,由于单独一个词不能同时表示观点性和相关性,因此词不再是最小的语义单位。此外,基于词袋的表示方法忽略了词序和词义,这使得观点性和相关性两类信息通常混在一起,难以区分。因此,基于词袋方法不能够准确的表示主观信息,并严重的影响了面向观点应用的性能。 ; 本文回答了以下几个由主观信息表示不当所引发的研究问题: 1. 对于主观信息而言单个词将不再是基本语义单元,是否存在一种有效的表示方法对其进行描述? 2. 由于主观信息是观点信息和相关性信息的结合,如何利用新的表示方法来描述这二者之间的关联信息?3. 如何对主观信息进行量化,以便对文档进行检索和分析? 4. 如何在面向观点应用中实现全新的主观信息表示方法? ; 由于观点检索的结果会直接影响到其它面向观点应用的性能,因此本文从观点检索这一问题入手。首先,我们提出了一种基于句子的方法来分析词袋表示方法的局限性。以此为据,定义了一种具有丰富语义的表达方式来表示主观信息,即词对,它是由出现在同一句子中的情感词和与之关联的目标词共同组成的。然后,我们提出了一系列方法来描述和获取两类语境信息:1)观点内信息:我们给出了三种提取词对的方法以获取观点与主题的关联信息;2)观点间信息:我们提出了一种权重计算方法来度量词对间的相关程度,从而获取词对与词对之间的关系。最后,我们集成了观点内信息和观点间信息并提出了潜在情感关联模型来解决观点检索这一问题。在标准数据集上的实验结果表明,基于词对的表示方法可以有效地描述主观信息,同时潜在情感关联模型能够获取词与词之间的关联信息,从而实现了利用语境信息提高观点检索的效果。 ; 此外,我们将词对应用于观点摘要和观点问答中,标准数据集上的评测结果显示基于词对的主观信息表示方法对于其它面向观点应用也同样有效。 ; There is a growing interest for users to express their opinions about products, films, politics, by using on-line tools such as forums, blogs, facebooks, etc. These opinions cannot only help users make decisions, e.g., whether to buy a product, but also to ob-tain valuable feedback for business and social events. Today, research on opin-ion-oriented applications (OOAs) including opinion retrieval, opinion summarization and opinion question and answering is attracting much attention. The difference be-tween fact-based and opinion-oriented applications lies in users' information need. The former requires objective information and the latter subjective, which comprises of opinions or comments expressed on a specific target. To meet the need of subjective information, both opinionatedness and relevance together with the association between them should be taken into account. Existing systems represent documents in bag-of-word. However, this representation fails to distinguish ...