胡 永,赵艳香,马严彦
(北京市园林绿化局信息中心,北京 100013)
古树名木是一种珍奇的绿色资源,又是一种记录环境变迁,社会演变的重要见证,是城市历史文化遗产的主要组成部分[1]。北京市共有各级别的古树名木4万多棵[2],从全球范围来看,北京也是保存古树名木数量和类别最多的大都会,保护好珍贵的古树名木资源,对于弘扬北京灿烂的历史文化,促进生态文明建设,具有十分重要的作用[3]。
近年来,公众参与古树名木保护与管理的热情逐渐兴起,但参与主体人数少、参与形式简单、参与机制缺失[4],无法达到古树名木得到更为良好的保护与管理的需要,也不能满足公众参与的需要。
现如今在电子政府背景下,为让公众更好地参与到北京古树名木的保护中,本研究应用数据分析技术对古树名木的二维码留言数据进行分析,从数据的角度,客观了解和掌握公众对古树的需求、关注度、喜好等,精确地反映公众对古树名木产生的行为特征,为管理部门提供古树名木管理和规划的决策依据,提升政府和公民网络互动的效能。
北京市作为历史文化名城,古树名木资源丰富,共有4万多株古树名木,树种主要多为侧柏、油松、国槐、榆树等乡土树种;在全市16个区均有分布,分布密度不均,主要集中在皇陵墓地、皇家园林、王府、寺庙及庭院等地,仅古树群就有100多处。2018年北京市园林绿化局把每株古树名木都挂上了二维码树牌,建立了二维码管理系统,鼓励公众通过扫描树牌查询和浏览树木的信息及照片,同时可进行评价、留言和拍照上传等,使公众与古树名木的互动交流更为便捷,在公众和古树名木之间架起了平行、全方位的信息沟通桥梁,鼓励普通公众在参与模式下更多地参与全市古树名木建设[5]。
数据主要来源于2018-09—2019-08公众对古树名木二维码树牌的留言。对留言进行采集和分类,把公众每一次通过扫描二维码树牌发布的留言作为“留言次数”统计,共采集到对北京市古树名木的二维码留言数据3 580条,部分样本数据见表1。
表1 部分样本数据二维码编号古树名称科属管护单位树龄/a留言内容留言时间r6riAb侧柏柏科侧柏属颐和园管理中心126欧德锤2018-09-01 12:27AB3Mfu侧柏柏科侧柏属颐和园管理中心136到此一游2018-09-01 12:53iQJbye国槐豆科槐属故宫博物院400难得2018-09-01 13:35UNfEvm桧柏柏科圆柏属故宫博物院200赞!2018-09-02 08:14zyeI7b桧柏柏科圆柏属颐和园管理中心110真香2018-09-02 12:52QZ3yEz桧柏柏科圆柏属颐和园管理中心110溥仪来过吧?2018-09-02 14:21nYNVFr侧柏柏科侧柏属颐和园管理中心138你好呀!!2018-09-03 14:22fARfqy侧柏柏科侧柏属颐和园管理中心124爱护树木2018-09-03 16:45……………………
主要应用自然语言处理和多维度拆解分析两种方法,并利用二维码留言信息内容和时空分布特点,分析游客对北京市古树名木的关注程度和喜好程度。
自然语言处理(Natural LanguageProcessing,NLP)是将人类交流沟通所用的语言经过处理转化为机器所能理解的机器语言,旨在设计算法使计算机像人一样理解和处理自然语言[6]。自然语言处理在实体抽取、情感分析等任务上的准确度不断提高[7],为精确处理留言评论数据提供了可能。本次古树名木留言数据分析中,运用了NLP即自然语言处理技术。基于NLP技术,进行挖掘,智能统计分析出古树名木留言词云图。
多维度拆解分析方法,是从多个维度拆解分析数据。在数据分析中,通过不同的维度去观察同一组数据,从而从多个角度观察出数据呈现的规律。
2.2.1 自然语言处理
1)文本预处理。利用NLTK自然语言处理库对留言数据进行文本预处理,预处理包括:文本提取(提取所需要的文本)和文本过滤(过滤掉空格空行、重复数据、以及火星文)。在3 580条古树名木留言数据中,提取留言内容中的文本,并进行文本过滤,去掉无效文本。
2)分词处理、关键词提取。将文本预处理后的留言内容,采用jieba(结巴)分词处理工具[8](Python的一个中文分词组件工具),进行分词拆分和处理,用TF-IDF[9](词频—逆文件频率)算法进行留言文本关键词信息提取,TF是一个词条(term)出现的频率,IDF是一个词条的重要性值。
(1)
(2)
得出TF和IDF之后,某个词t的TF-IDF值为:
TF-IDF(t)=TF(t)*IDF(t)
(3)
通过TF-IDF值过滤掉常见的词,提取二维码留言信息中的关键词。
3)生成留言词云图
经过TF-IDF算法得到关键词信息后,通过加载词云包wordcloud库,对古树名木留言热词进行词云图绘制(图1)。可通过调整wordcloud的参数设置词云图形状,达到不同显示效果。
图1 留言词云图
2.2.2 多维度拆解分析
将3 580条古树留言数据,基于留言频次、时间、位置进行整理统计排序,从多个维度进行分析。
从二维码留言数据中,统计出各公园古树名木的留言次数数据,用各公园留言次数数据除以公园内古树名木数量,得出各公园古树名木平均被留言评价次数,经排序后得到全市公园内古树名木留言评价次数前九的公园如图2所示。从图2可知,故宫内的古树名木平均被留言评价次数最多。故宫是国家5A级旅游景区,也是第一批全国重点文物保护单位,闻名国内外,故宫内的“活文物”——古树名木,也因其树龄古老、姿态奇绝而备受公众关注和喜爱。
图2 各公园古树名木平均被评价次数分析图
将二维码留言频次,基于古树名木类别进行汇总统计排序(图3),得出楸树是全市平均被留言评价次数最高的古树。楸树是北京的乡土树种,树形优美、高大粗壮、花大色艳,更多地受到公众的喜爱和关注。
图3 各类古树名木平均被评价次数分析图
将每株古树名木评论数量进行排序,得出评论数量前三甲的古树名木,分别是潭柘寺编号为110109A00677的银杏树、中山公园的编号为110131A06915和110131A06918两株侧柏,它们的树龄都在1 000 a以上。潭柘寺古银杏树为乾隆御封的“帝王树”,是迄今为止,皇帝对树木御封的最高封号,其树高超过30 m,胸干周长达9 m,遮荫面积约600 m2,树龄1 300 a;中山公园的侧柏,已有上千年的生长史,树干周长达一丈九尺余,伟岸挺拔。
将古树名木留言数据,按照月份进行汇总统计,经排序分析后得出月度公众留言数,详见图4,可知4—8月份古树名木留言评论人数相对较多,五月份人数最多,春季至初夏公众出游观赏意愿较高,也是古树名木最佳观赏时间。
图4 月度公众留言数
将古树名木留言数据,按照每小时为一个时间段进行汇总统计,经排序分析后得出各时段公众留言数,详见图5,可知公众留言评论较集中的时间段为每天的9:00—15:00。9:00至15:00一般是公众观赏游览较集中的时间段,因此与古树名木的交流也集中在这个时间段。
图5 每天各个时段公众留言数
留言信息中有20条留言反馈古树名木濒临死亡的信息,10条留言反馈二维码信息错误,8条留言反馈古树名木遭到破坏,此外还有123条分享古树名木知识的互动留言,89条祝福古树名木的留言,881条赞美古树名木和2 439条打卡纪念留言,涉及到古树名木各个相关方面,内容丰富。详见图6。
留言词频统计得出:带有“古树”留言有279条,带有“到此一游”留言有170条,带有“历史”留言有106条,带有“见证”留言有74条,带有“大树”留言有61条,带有“厉害”留言有50条。得出公众与古树名木互动最频繁的词是古树、到此一游、历史、保护、见证等词,表达了公众对古树名木积极向上的情感。
图6 留言类别统计
本文创新性地依据古树名木二维码留言数据,利用自然语言处理、多维度拆解分析数据分析方法,分析展示了公众对古树名木关注情况及时空特征。从数据分析得出:
1) 公众对了解古树名木种类以及相关信息有较强需求,特别是对它们的树龄有较大偏好。
2) 中山公园、天坛公园、故宫成为公众参观古树名木的最佳去处。
3) 观赏时间大多集中在春季,每天的观赏时间一般集中在9:00—15:00。
4) 二维码留言拓宽了管理部门与公众之间的沟通渠道,提高了公众参与全市古树名木建设与保护的便利性和积极性。
5) 古树历史悠久,是与历史对话的桥梁,因此越来越受到公众关注,同时北京古树名木也给公众提供了美好愿望与祝福的寄托。但大量公众基本全是通过扫二维码了解古树,也说明古树科普工作有待进一步加强。
1)目前统计的古树名木大多分布在北京五环以内,建议加大对北京偏远地区的未知古树名木的调查统计,进而加强对全市古树名木的保护。
2)在游客较集中的公园景区,每年春夏两季的9:00—15:00时间段,多组织一些古树名木观赏及知识普及活动,进一步提升公共服务能力,加大公众与古树名木的交流。
3)在游客留言较少的公园景区,加大古树名木二维码留言功能与活动的宣传,更多地引导公众参与古树名木的游览与互动交流。
4)加强古树名木的标牌与标识配置,强化科普工作,普及古树名木生长环境和生长价值的相关知识,提高公众参与保护古树名木意识。