陈彦敏 王志华
摘要:短文本信息是一种短文本数据,数据中包含人们对社会各种现象的各种观点和立场。消息发布大多通过用户来完成,用户有很多的属性,例如用户的年龄分布度,用户的观点倾向,用户的等级程度等等都会影响短文本信息内容的传播。主要分析短文本信息的和用户属性的特点。
关键词: 短文本;用户属性; 社交网络
中图分类号:TP313 文献标识码:A 文章编号:1009-3044(2016)02-0003-02
1 引言
在目前网络环境下新闻评论、商品评价、BBS、尤其是社交网络,都为信息传播提供了新的平台基础。这些网络应用产生了大量的文本,但是这些文本一般长度比较短,称之为短文本信息。短文本数据量非常巨大,数据中包含人们对社会各种现象的各种观点和立场,话题涉及政治、经济、军事、娱乐、生活等各个领域。
短文本信息是一种即时交互性短文本,与常规文本相比,具有不完整性、不规范性等特点。常规文本聚类研究中采用的基于关键词匹配,改进的相似性度量方法不能很好地适应短文本信息聚类的需要。
随着短文本挖掘需求的日益增长,近年来人们对短文的挖掘进行了很多研究。龚才春等人提出了[1]基于频繁词集的方法。该方法是提出了一种大规模语料的划分策略,将待发现频繁模式的原始语料划分为若干子语料。对每个子语料独立发现其频繁模式结果,并能保证对各子语料发现的频繁模式结果的并集即为原始语料的频繁模式集。能够避免处理低频模式,从而大大提高频繁模式发现的速度DeLuea等人提出了基于语义的方法[2],利用概念间的共现关系来确定其语义联系,并利用这种语义联系来指导分类,从而达到比一般向量空间模型更好的短文分类效果。另一种方法[3]是使用潜在语义索引进行短文本分类的方法。该方法通过潜在语义索引来定义词汇之间的语义联系,从而提高短文分类的准确度。这些基于语义的方法在某些范围内获得了较好的准确度,但准确度仍有待进一步提高。宋万鹏等人提出短文本相似度计算在用户交互式问答系统中的一个具体的应用[4]。杨震等人提出的基于字符串相似性聚类的网络短文本舆情热点发现技术[5]。文献[6-7]提出了分别介绍了无监督和半监督的方法对短文本信息的技术研究,杨天平等人提出概念描述的短文本分类方法[8],路荣等人提出话题的发现[9]。
这些研究包括对短文本信息从文本的语料和语义分析,到文本相似度的分类和聚类的分析,以及一些新的概念描述,都是对短文本信息本身进行的研究。
2 短文本的特征
短文本数据和通常意义的文本信息数据不一样。文本信息往往是一篇完整的文章或截取某一段的信息。信息句式完整,句子语义完整。在这样的文本信息下,研究文本内容的关联和文本之间的关联时,可研究的内容多,表达完整。尤其对文本做分类和聚类时,这样的文本信息划分种类较容易,准确度高。
但是短文本数据和文本信息无论从文字长短上还是结构特征上都有很大的区别。
2.1文本来源不同
文本信息来源主要是网站或已整理好的文章。而短文本信息主要来源于社交网络的留言,用户的微博,即时通讯工具等,这样的短文本信息语义内容少,必须要根据前后短文本信息的内容来理解语义。文本来源多,内容杂。
2.2文本结构不同
文本信息的结构主要是文字。但是短文本信息的结构是复杂的。从短文本信息的特点上就有图形,图标,文字,flash等非结构化数据。这些非结构化数据代表相关的语义信息,但是仅仅分析文本内容,并不能完全正确理解短文本的全部语义。如果从短文本信息的用户属性角度上分析的发送端和接收端,这些部分又是结构化的数据。
2.3文本的长度不同
普通的文本长度一般在一段到几段之间,甚至更长。这样的长度,可以找出文本的关键词等信息。但是短文本信息的文章这往往只有一句话或几句话,甚至是几个字。在这种情况下,通常意义的基于关键词的频率的查找方法就不适用用短文本的查找,因为这种频率太低,没有区分度。
2.4文本信息数量不同
通常意义下的文本信息数据都是以篇数来统计的,但是对于短文本信息数据没有篇的概念,因为短文本的篇幅短,通常不超过100个词,关键词出现的也少。一般以条作为短文本的信息数量。通常要研究大量的短文本信息才具有意义。
2.5文本信息的属性特征不同
通常意义下的文本,都是基于内容的研究。而短文本在内容上没有太多可以表示的内容,但是在短文本的用户的属性,短文本发送的地理位置,发送的时间,发送的相关对象等都具有特点的意义和特点。
3 建立短文本信息数据库的特点
建立短文本信息数据库与通常的文本数据库也有很多的区别,一般的文本数据库主要存储的是以文本的篇数或文本的关键词来存储。但是短文本信息的数据库根据短文本数据的规模大小,文本结构,提取的属性,所需要的短文本数据库也不同。
在短文本信息数据库中,如果研究是文本本身,需要存储文本内容。如果是短文本自带的属性,例如地理位置,发布时间,转发数量等。这个就需要对短文本的属性设置相应的属性项来实现。还有一种情况,就是研究发送短文本信息的用户,用户属性包含类别很多,有用户自身的属性,还有用户和其他用户交互的行为过程,这些信息有些是非结构化的,有些是结构化的,不同的研究对象需要分别建立不同的数据库。
短文本信息与用户之间是有一定的联系的,因为用户对短文本信息的发布,用户本身会具有很多的属性,例如用户的年龄分布,用户的权威度,用户的观点倾向,用户的等级程度等等,不同的用户属性在不同程度上都会影响短文本信息内容的可信度和传播。
4 短文本信息的用户属性
短文本信息的发出者是用户,由于短文本信息的发送和接受都是和用户相关。所以研究用户的属性就是研究短文本的附加语义和价值的重要途径。
用户属性包括有以下几种:
4.1用户的个人属性
包括:年龄,姓名,单位等。有些个人属性是公开的,有些是非公开的。这些个人属性都和短文本信息的内容等有多相关的联系。
4.2用户的等级属性
在很多的社交网络中,都设计了不同的用户等级,有公众的用户等级,有用户通过发文和充值的等级等。
4.3用户的地理位置属性
在很多的手机端,软件通过GPS和移动网络的基站确定用户的地理位置。根据地理位置可以判断用户所在地区,用户移动行迹路线,用户常去的地方,有很多软件基于此进行信息推送。
4.4用户的短文本附加属性
这些属性有短文本的转发量,短文本的阅读量,评论数等,这些附加属性是基于用户的。但对短文本信息的分析有帮助作用。
5 结 论
在建立文本信息数据库和用户属性集的条件下,研究通过用户属性对短文本信息的提取具有什么样的影响。哪些用户属性对文本信息具有关键作用。将用户的属性作为短文本信息提取的重要权重属性,研究是否能够通过类似的用户属性预测其他用户的短文本信息发布的趋势。同时研究建立合适的数学模型。
总之,用户的不同属性,对分析和研究文本和语义都有重要的影响和意义。
参考文献:
[1]龚才春.短文本语言计算的关键技术研究[D].中国科学院.2008
[2]E. W. DeLuea, A. Nurnberger. Ontology. Based Semantic Online Classification of Documents: Supporting Users in searching the web[J] In:Proc. Of the European Symposium on Intelligent Technologies (EUNITE2004).
[3]Deerwester Scott et al. indexing by latent semantic analysis [J]. Journal of the American Society for Information Science, 1990, 41(6):391-407.
[4] 宋万鹏.短文本相似度计算在用户交互式问答系统中的应用[D].2010
[5]杨震,段立娟,赖英旭,等.基于字符串相似性聚类的网络短文本舆情热点发现技术[J].北京工业大学学报,2010,36(5):669-673.
[6]黄九鸣,吴泉源,刘春阳,等.短文本信息流的无监督会话抽取技术[J].软件学报,2012,23(4):735-747.
[7]蔡月红,朱倩,孙萍,等.基于属性选择的半监督短文本分类算法[J].计算机应用,2010,30(4):1015-1018.
[8]杨天平,朱征宇.使用概念描述的中文短文本分类算法[J].计算机应用,2012,32(12):3335-3338.
[9]路荣,项亮,刘明荣,等.基于隐主题分析和文本聚类的微博客中新闻话题的发现[J].模式识别与人工智能,2012,25(3):382-387.