邓淑丹
(1.福建省基础地理信息中心,福建 福州 350003)
基于新媒体信息的空间数据挖掘研究
邓淑丹1
(1.福建省基础地理信息中心,福建 福州 350003)
研究了在线新闻资讯获取﹑新闻资讯挖掘与分析﹑空间定位等技术;并基于MVC架构搭建了在线空间数据搜索系统,实现了对新闻媒体资讯信息的抓取﹑存储﹑挖掘﹑提取与空间化。该系统已被应用于福建省城市生活信息提取和专题数据资源收集等方面,取得了较好的效果。
新闻媒体资讯;全文分词;挖掘与分析;空间定位
随着互联网的发展和智能手机的普及,每天都将产生海量的信息资源,新闻媒体是其中重要的组成部分,然而这些信息仅为平面的文字﹑图片和视频,缺少时空位置信息,难以进行空间的挖掘和分析,因此有必要基于Internet搜索和挖掘地理空间数据信息资源,把地理空间数据资源应用到公众生活和政务决策中。国家测绘地理信息局于2014年6月发布了《测绘地理信息部门信息化建设指导意见》,文件提出:借鉴现有1∶5万基础地理信息数据库更新项目生产模式,建立和收集整理各类门户网站和社交媒体等方面的地理信息资源的技术能力和运作机制,探索建立测绘地理信息在线增量更新模式,拓展测绘生产和地理信息动态更新方式。
本文基于互联网收集网络媒体信息,通过研究在线提取媒体信息﹑全文分词﹑地名地址匹配﹑数据挖掘等技术,从媒体信息中提取有价值的时空信息,为政府决策﹑企业增值﹑公众生活服务等提供数据支持。
本文基于新媒体信息的构成特点,研究了在线新闻媒体资讯信息获取技术,提取了在线网络新闻资讯信息,构建了新闻媒体资讯数据库,研究了全文分词算法﹑地名地址匹配﹑空间分析等关键技术,实现了对新闻媒体资讯信息关键字﹑摘要﹑地名﹑人名和地名等信息的提取和分析,并对地名信息进行了空间化。
1.1 技术路线
本文设计的技术路线分为选取关键词库﹑抓取网络资源﹑构建新闻资讯数据库﹑全文分词﹑挖掘与分析﹑地名地址匹配﹑建设专题数据库和行业应用等阶段,如图1所示。
图1 技术路线图
1.2 技术架构设计
本文采用B/S的结构,技术架构由数据层﹑服务层和应用层组成,如图2所示。
图2 技术架构
1) 数据层。数据层是数据挖掘的基础,本文依据新媒体信息资源的特点,设计了符合需求的数据结构,高效关联不同数据资源,融合应用空间信息与属性信息,最终形成新媒体信息数据库和地名地址数据库。
2) 服务层。服务层是数据层和应用层之间的桥梁,提供媒体信息提取﹑属性信息分词﹑地名地址定位﹑数据分析等服务。应用层通过传输和调用地址﹑参数,即可获取多样化的专题数据资源。
3) 应用层。应用层是媒体空间信息和挖掘信息综合展示与分析层。本文以LeafletJS地图引擎为基础,调用服务接口获取媒体信息与挖掘信息,实现专题资源查询﹑综合查询﹑新闻信息全省分布等功能。
1.3 关键技术研究
本文主要研究在线新闻资讯获取﹑新闻资讯挖掘与分析﹑地名地址匹配等关键技术。在线新闻资讯获取技术用于从海量网络资源中提取与关键词相关的信息;新闻资讯挖掘与分析技术是在获取新闻资讯信息的基础上对全文进行分词﹑挖掘与摘要提取;地名地址匹配技术用于对文本中的地名和地址信息进行空间化;空间分析技术用于对辅助空间位置的提取和位置准确率的评估。
1)在线新闻资讯获取技术,即在研究网站的网页组织特点和规律的基础上,选取新闻资讯的根地址作为种子地址,采取深度遍历策略,从根节点地址开始遍历下一级节点地址,处理完一个链接后,继续跟踪下一个链接,直到遍历完所有链接为止。互联网的新闻资讯常用HTML组织,如图3所示。首先研究HTML组织的特点,对信息进行提取和处理,分别获取标题﹑作者﹑来源和内容等信息,再把获取的信息以xml文件格式进行存储,内容中每一个段落都使用<p></p>来组织。编写新闻资讯入库程序,按照所设计的表空间结构,把新闻资讯信息录入数据库。
图3 新闻媒体数据结构
2)新闻资讯挖掘与分析技术。本文以中科院研究的开源软件ITCLAS为基础,先利用“天地图·福建”中的地名地址数据建立检索模型;再运用软件语义搜索﹑词汇比较﹑词汇识别﹑情感分析﹑评估统计等功能,获取多种关键词﹑人物﹑地名﹑摘要等信息;最后通过对比分析去除重复的信息,仅保留一项信息,分别对关键词﹑人名﹑地名﹑事件类型﹑摘要信息进行关联,使之形成一个有机整体。
3)地名地址匹配技术。将挖掘和分析得到的各媒体信息的地名地址字符串,构建成地名地址数组,采用正反向的地名地址匹配方法对媒体信息进行空间化。由于媒体信息的数据涉及省内外地名地址数据,因此在匹配时,省内地名地址以“天地图·福建”的地名地址分词库为基础,省外地名地址以百度地名地址为基础。但百度地图与“天地图·福建”地名地址的坐标基准不同,因此需利用纠偏处理技术,将省外地名匹配后的空间坐标纠正到统一的CGCS2000坐标系。对于行政地名地址,则从大到小依次匹配到较为准确的位置;对于方位词东西南北,则以参考点为基础按照方位延伸一定的距离;对于无法确定的区域范围,则以实际参考点为基础,缓冲100 m的范围作为当前影响区域范围。
本文以Visual Studio2015为开发环境,采用 Oracle数据库存储新闻资讯和空间信息,搭建分布式计算环境,部署开源爬虫工具Nutch抓取网页文本信息,基于MVC架构开发了新闻资讯挖掘﹑地名地址匹配和综合查询等功能服务,实现了在线专题信息资源的提取和分析。
1)媒体数据获取。明确搜索主题,建立与主题相关的关键词数据集;再以关键词为核心,拓展与关键词相关的时间﹑地点﹑词语和短句等,形成一个以主题为核心的关键词库,最后使用爬虫技术遍历网站中的所有静态网页,抓取网页的文本信息。
2)中文信息分词。以中科院的ITCLAS软件为基础,开发中文分词功能,实现在线中文分词。从文本信息中获取地名﹑人名﹑组织结构﹑关键词﹑摘要等信息,并对分词后的信息进行评估。例如,以2016 年9月27 日东南网的新闻为例,地址:http://fz.fjsen. com/2016-09/27/content_18510178.htm,文章标题为“福州地铁1 号线北段建设进入尾声5个站点围挡今拆除”,对全文进行分析,文章分类为交通类信息,得到的关键词为“路面”﹑“围挡”﹑“拆除”﹑“路面交通”﹑“恢复”等,获取的地名信息包括福州﹑屏山﹑达江﹑秀山﹑安泰等。经过人工评估和分析,关键词提取的准确度能表达文章的大体意思,其中围挡拆除的5个地名是屏山站﹑达江站﹑秀山站﹑安泰站和象峰站,与挖掘结果相同。
3)地名地址匹配定位。以“天地图·福建”的地名地址数据库与百度地名地址API为基础,对提取内容中的空间数据信息进行匹配和定位,实现属性信息的空间化。
4)专题展示。选择Leaflet为地图引擎,获取定位后空间数据资源,在地图上展示定位资源,点击标注,显示标注的详细信息,包括标注所在城市﹑标题﹑关键词﹑摘要等信息。
5)空间分析。提供缓冲区分析﹑聚类分析﹑空间统计分析等服务,实现对空间信息资源的处理和分析,排除不符合条件的结果。
该系统已被应用于城市生活通知﹑周边重大新闻事件和专题资源信息获取等多个领域。
通过部署实时抓取程序,重点监控城市生活类通知,实时提取道路修建﹑围挡﹑停水停电等通知,并在地图上进行定位,提醒公众注意。本文基于互联网抓取了福州市2015~2016年的气象暴雨数据,建立了搜索关键词库,从新闻中提取暴雨后积水较多的区域;再运用空间分析﹑缓冲区分析﹑叠加分析等技术,去除不可能存在的点位;然后经过人工的评估和核实,补充未收集的涝点位置,形成涝点专题地图数据库,为治理城市涝点提供了空间数据支持(图4)。
图4 福州市城市涝点地图
本文通过对在线媒体资讯搜索下载﹑全文分词﹑属性信息空间化等关键技术的研究,实现了专题信息的挖掘与分析﹑地名地址匹配定位等功能。该成果已被应用到城市生活通知﹑周边重大新闻事件和专题资源信息获取等多个领域,应用情况良好。下一步将逐步完善在线搜索技术,利用大数据分析理念,实现海量空间数据资源的搜索能力,并挖掘﹑分析和整理出有价值的各类专题信息资源,为公众﹑政务﹑企业提供辅助决策和投资参考,实现空间信息的转化与价值应用。
[1] 陈兴华.基于语义挖掘的应急空间信息采集技术[J].地理空间信息,2016,14(9):38-39
[2] 邵星星.基于Lucene的中文分词技术研究[D].西安:西安电子科技大学,2012
[3] 吕欢欢,宋伟东.多元地址要素组合的地址匹配方法[J].测绘科学,2015(3):96-100
[4] 于成龙,于洪波. 网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29
[5] 李雄飞,李军.数据挖掘与知识发现[M].北京:高等教育出版社,2003:1-10
[6] 蔡皎洁.Web 环境下的语义挖掘模型研究[J].情报理论与实践,2015,38(5):121-124
[7] 阮光册.网络用户评论的语义挖掘研究[J].情报科学,2015,33(11):107-110
P208
B
1672-4623(2017)09-0026-02
10.3969/j.issn.1672-4623.2017.09.009
2017-03-14。
项目来源:福建省测绘地理信息局2015~2016 年科技基金资助项目(2015J08)。
邓淑丹,硕士,工程师,现从事GIS应用研究、数字城市地理空间框架建设、三维地理信息系统建设工作。