陈静宇,刘 涛
(1.安徽财经大学文学院,安徽 蚌埠233030;2.安徽大学艺术与传媒学院新闻播音系,安徽 合肥 230011)
互联网和计算机技术高度发达催生了大数据时代的到来,目前基于大数据的网络舆情研究通常是利用开源框架工具和开源数据,主要有垂直搜索引擎、网络社交媒体以及各类专业数据库,实时采集文本和图像信息,并用搜索框架搭建一套检索系统,实现信息的检索和分类,最后通过超算服务器并辅以业内的专家研判,获得有价值的信息,以精确描绘现状,预测社会舆论的趋势、预测未来,从而指导决策和具体方案的实施.由此,大数据舆情研判潜在的价值也越来越受到专业人士及政府管理部门的重视.
刘伟祥和崔林山[1]对公安交通管理大数据研判分析平台进行研究,更好地整合了行业信息资源,提高数据统计分析能力和效率.邹婷[2]提出智能交通卡口数据研判分析系统,该系统对卡口过车数据进行分析处理,提炼分析模型,从而提高办案效率.丁晓蔚等[3]提出大数据背景下重大公共危机事件舆情研判,并以2015年天津大爆炸事件为例分析了舆情研判的意义.马丁等[4]对网络犯罪原始电子数据研判系统开展研究,进行有效性和真实性的研判,为侦查人员提供技术支持.吕平[5]对农信社历史数据及实际经营情况进行分析,通过系统平台对业务批量处理,完成任务的监控和统计.房地产业与大数据有千丝万缕的联系,然而这方面的研究工作亟待加强.本文以合肥市房地产业数据、舆情监管为例,着重分析当前合肥房地产业大数据的平台建设、数据储存、数据分析以及研判路径,以带动更多行业人士和研究者关注,推动大数据在房地产业方面的应用和发展.
合肥是安徽省省会城市,2016年房价年度涨幅高达48.4%,位居全球城市房价涨幅第一.城市的高速发展、辐聚效应和外来人口的迅速增加,促进了合肥房地产业的繁荣.据统计,从2009到2014年合肥增加人口超过 250 万,增加比例约为50% .合肥常住人口从2011年的752万增长到2015年末的779万.合肥市统计局统计显示,2016年末合肥人口786.9万,2015年在合肥的购房人群中,省外的比例为5.8%,合肥本地户籍购房比例为35.8%,来自省内其他城市的比例为58.4%.随着合肥市房地产行业渠道规模的不断扩大,业务量不断增长,房地产企业自身的数据已很难支撑需求.这就需要通过建立房地产数据平台及时加快对房产数据的存储、管理和分析,实现数据共享,提高政府相关部门对房地产业数据的利用效率,针对房地产运行情况有效做好政策调整等措施.因此,合肥房产舆情数据平台的建设势在必行.
合肥市房地产舆情分析系统信息源涵盖了论坛、微博、新闻网站、博客、微信、手机客户端等,系统对采集到的网络房地产信息进行数据分类,并利用情感正负面分析技术,帮助用户真正的掌握互联网精准的、即时的、全面的房地产舆情信息,从而实现舆情的及时发现和应对处理.房地产数据仓库架构设计主要包括六个部分,分别是数据采集层、数据处理层、数据存储、管理层、数据服务层、数据应用层以及底层数据处理工具,系统架构图如图1所示.
图1 数据仓库架构图
(1)数据采集层:由于房地产数据源包罗万象,而不同的数据源会存在形式多样不合法、不统一等,因此需要配置各种不同的规则模板,实现对互联网公开的信息进行采集.
图2 数据获取层结构图
(2)数据处理层:针对数据采集层抓取到的数据,利用Jsoup、XPath、正则等网页解析工具将源数据进行结构化的抽取,同时将源数据统一存放于 HDFS(分布式文件系统)中,然后再映射到数据仓库,如图2所示:
(3)数据存储、管理层:由元数据和外源数据两个部分组成.在数据存储、管理层中存储着房地产行业的主要内容,房地产数据仓库中存储管理着海量的房地产的元数据和外部收集的历史数据,并且还具备海量数据的检索、统计和分析等多种应用功能,如图3所示:
图3 数据存储层结构
元数据管理,元数据能够帮助相关人员便捷快速的找到他们所需要的房地产相关的数据.可分为两类,分别是业务元数据和技术元数据,其中业务元数据描述了数据仓库中的数据业务层面,能够让无计算机背景的业务人员清晰其表述的意义;另外一种技术元数据则是系统中的一些技术细节数据,便于开发者管理和使用数据仓库.
(4)数据服务层:主要功能是给上层的数据应用层提供不同数据接口.在此利用一系列的自然语言处理技术,如中文分词、情感分析、文本分类等.
(5)数据应用层:直接提供和用户交互的界面层,将系统存储的海量房地产数据清晰归类地呈现在用户眼前.可以帮助相关人员便捷、高效地进行舆情信息数据统计和分析,从而完成后台数据到前端数据的呈现,基于分布式存储的数据应用结构,如图4所示:
图4 数据应用层结构图
(6)底层数据处理工具:底层数据处理主要是基于一些信息解析工具,如Jsoup、Xpath、正则等,对数据进行精细化抽取,并将抽取后的结构化数据存储在数据仓库中,然后把存储的数据同步迁移到MySQL中,同时也把处理过的数据的MD5值存储在 Mongodb中便于信息处理中去重过滤.
针对上述需求分析以及概述情况,建立合肥市房地产数据仓库需实现的功能:
(1)合肥市房地产分类搜索功能,如按地理位置、房产类型、房产户型等分类信息进行有效检索;
(2)合肥市房地产数据导入报表功能;
(3)合肥市房地产数据智能浏览和分析功能;
(4)合肥市房地产数据可视化展示平台功能.后续会进行相应的功能介绍及数据呈现方式.
多维模型是一种针对具有多维结构的数据建模技术.在实际生活中,事物之间的关联通常都是多种的,如房地产楼盘销售中相关联的有楼盘所在地域、楼盘类型、开发商、时间等.而多维模型就是基于此概念,从多层次、多角度地去呈现出数据间的这种联系.首先对相关数据进行规范的整理,抽取出中间的属性信息并进行分类和重组,然后对这些重组后的数据进行多维模型结构的建立,形成一个直观有效的数据多维视图,辅助使用者进行决策分析.
在数据仓库多维模型中,每一个对象都是由一系列的属性来刻画:
事实(fact):指的是目标数据,一般利用数据属性对此数据进行量化的分析描述.
度量值(measure):事实的量化属性,按照标准划分,一般包含可加的、不可加的和半可加的三种.
维(dimension):对事实进行分析的角度,维度性规定了维的所有具体特征和层次.如时间维度可划分为年、季度、月等不同的层次.
维成员(member):指的是维中的值.对多层维度而言,则是指在不同层次维上取值的组合.如在地理维上,“某省”、“某市”、“某区”等都是维成员.
立方体(cube):数据的多维矩阵,将数据组织并汇总到一个由一组维度和度量值所定义的多维结构中.如图5所示的四维楼盘销售模式,呈现出了房地产数据仓库的一个数据立方体和其中的各个维.这是一个经典的多维模型,形象地表达出数据立方体的目的就是能够沿着不同维度,如开发商、楼盘类型、所在地域、时间、维来对度量值进行分析.
图5 四维楼盘销售模型
通常情况,维之间的事实都是多对多的关系,而事实和具体的维则是多对一的关系.如在事实数据中,一个事实仅对应一个开发商在某一个月某一个地域销售楼盘的数量,而销售楼盘的数量,也可能仅对应销售时间、销售楼盘地域等.在一些情况下,事实与特定维间是有多对多的关系,在地域维上,销售意向事实和楼盘类型形成了多对多的关系,即一个楼盘类型可被多个客户选定,一个客户也可以意向多个楼盘类型.在定义出多维模型结构的基础上可清晰地定义出用户需求,基于这些需求数据,利用OLAP技术,用户可以进行更深入的分析工作.
目前业内最流行的数据仓库的模型是多维模型,而对多维数据模型进行分类的,最典型的包括三种,分别是星型模型、雪花模型和星系模型.最常见的模型是星型模型,它的数据仓库包含了一个海量无冗余的数据事实表和一组小的附属维表;星型模型进一步延伸后则是雪花模型,是在星型的基础上将维表中可分解的数据再继续分解到下一层表中;而针对由多个事实表组成的复杂数据仓库系统,上述两种系统并不能很好地支持,所以有了第三种模型,即星系模型.星系模型是一种适用于复杂数据仓库系统,由多个事实表组成,描述我们需要的数据,这些事实表分为特有维表和共享维表.
由于房地产数据涉及到楼盘信息、房屋信息、客户信息等,内容纷繁复杂,这些数据结构并不太一致,需要用不同的事实表来进行描述,并且这些事实表具有错综复杂的关系,所以选择星系模型为房地产数据仓库建模,如图6.
首先整个房地产数据仓库的模型结构需要设计出来,然后适当地选择房地产数据的一个子集,如楼盘信息数据,作为设计案例的数据基础,在此基础上构建房地产数据的仓库模型.因为在楼盘数据中提取的维度通常只是多个维度中的一个,所以整个楼盘数据仓库模型是一个更高维的模型.
图6 房地产数据仓库星系模型
针对上述星系模型,定义立方体和维可使用数据挖掘查询语言DMQL来实现.
立方体的定义形式如下:
define cube
维定义形式如下:
define dimension
使用原语来形式化地描述楼盘、房屋、客户数据仓库,如图7、8、9所示.
图7 楼盘数据仓库星型模型
图8 房屋数据仓库星型模型
图9 客户数据仓库星型模型
通过建立房地产数据仓库以及多维模型的分析,可以让管理人员轻松地从各种视角智能浏览查看和分析房地产历史数据,且通过MySQL库可以对房地产楼盘数据进行优化存储、维护、检索数据等,在最大程度上实现合肥市房地产舆情信息开放数据的共享,如图10所示.
图10 房地产数据智能浏览结构图
以建立房地产数据仓库为基础,通过对数据的搜集、整理、汇总,利用统计分析手段实现对房地产舆情的长效预警,方便用户对房屋价格、预期和区域偏好等条件进行选择,根据用户设置的偏好系统将自动筛选符合的房产舆情信息,并实现与用户智能交互,以满足消费者对房地产舆情信息的需求.
房地产舆情分析涉及的数据分析技术主要包括文本分类与聚类、自动文摘、话题发现与跟踪分析及文本倾向性分析等.
上述房地产数据以及统计分析工具是基于HanLP自然语言技术进行处理,且由一系列模型与算法组成的,主要包括:中文分词、CRF分词、用户自定义词典、TextRank关键词提取等技术,以下主要介绍 CRF分词模型以及基于隐马尔可夫模型中的短语提取分词设计,后续会基于该模型进行分析房地产相关数据,并在前台平台展示以及智能浏览:
(1)CRF把分词当作字的词位分类问题,通常定义字的词位信息如下:
(2)CRF分词的步骤是先对词位进行标注,然后将标记为B和标记E之间的字,以及标记为S的单字构成分词.
(3)CRF分词实例:
(4)用户自定义词典
CustomDictionary是一份用户自定义的全局的通用词典,可以根据具体需求进行增删改,可影响所有的分词器.另外可以在任何分词器中关闭它.而且该词典可通过代码进行动态增删改,不会对词典文件产生影响.CustomDictionary主词典文本默认路径是data/dictionary/custom/CustomDictionary.txt,用户可以在此增加自己的词语(不推荐);如有需求用户也可以单独新建立一个文件,并通过设置默认词典的路径CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt;我的词典.txt;来追加词典,以此来获取房地产相关的信息,供前台展示.
(5)TextRank算法
其原理就是从文章中自动抽取关键句,然后根据规定好的一个权重评分标准,给每个关键句进行打分,并列出排名靠前的句子,生成短语或关键句云图,如下算法公式:
该公式中,左边WS(Vi)表示单独一个句子的权重值,Vi表示某个句子;公式右侧的求和表达式的意思是每个相邻句子对本句子的贡献程度,d表示阻尼系数,是用来克服这个公式中“d *”后面的部分的固有缺陷用的,Vj表示链接到Vi的句子(即Vi的入链),In(Vi)表示句子Vi的所有入链的集合,Out(Vj)表示句子,Wji是表示两个句子间的相似程度大小,而WS(Vj)代表上次迭代j的权重.此处相邻句子和提取关键字时候是完全不同的,在此默认所有句子之间都是相邻关系,不再提取窗口.
(1)基于设置合肥市房地产关键词的媒体分布统计.地域关键词:“合肥 蜀山区 瑶海区 庐阳区 高新区 滨湖区 政务区”.主题事件关键词:“限购 限贷 购房 楼盘 户型 房价 哄抬 哄抢 不动产 房产 房产调控 过户费 房产证 房产面积 限价”. 根据主题事件关键词进行规则性匹配分析,某条信息包含地域关键词和主题事件关键词,则表示该房地产在媒体中的舆情信息可饼状图形式呈现出来,如图11.
图11 2016年至今合肥房地产媒体类型图
(2)基于用户自定义字典及短语提取分析的字符云统计分析图.如图12所示,它呈现的是合肥房地产字符云图分布,字符大小与关注度呈正相关.从图中可以清晰看出,在此期间,合肥房价、房价涨幅等成为一时热点,媒体对合肥市房价问题关注度最高,房价攀升的节奏也非常快,社会的关注度也较高,从而体现了房地产行业在“大数据云计算”的基础上利用互联网在数据处理以及自然语言分析、决策模型方面的优势,帮助房地产业进行决策分析.
图12 2016.2-2017.4字符云图统计[8]
除此之外,数据仓库模型还可基于中文分词以及关键词提取技术,获取合肥市房地产相关舆情案例展示的热点词频图、线型分析图等形象直观的可视化图形.
综上而言,基于大数据的合肥市房地产舆情研究平台要充分认识到大数据的重要性,从数据的提取到存储体系的建设,再到房地产舆情监测方面不断探索,这样才能发挥大数据在房地产业的巨大潜力.引进大数据处理和运用的专业方法和工具,建设专业的大数据应用人才队伍,建立具有前瞻性的业务分析模型,具备把握、预测市场和用户行为的能力,才能将数据挖掘与分析更有价值地运用到业务经营和管理过程中.