宋家麟
摘 要 房屋中介行业的经营者常会从不同的数据源中提取相关的成交数据、业绩数据,对数据进行清理以保证数据的正确性。随后将数据进行不同维度的匹配,从而将数据变为信息和知识,以辅助企业做出正确的决策。本文尝试通过C#语言结合正则表达式来解释数据进行匹配如何在行业中应用。
【关键词】房屋中介 成交数据 数据匹配 C#
以往房产中介企业以房源信息为导向,而对业绩状况做分析可以帮助决策层更了解自己和对手。企业的管理者需要从系统中发掘更多数据资产,基于此来进行更好地进行市场的战略部署。
本文结合微软的.NET技术,对现有的房源信息、销售数据和市场成交数据依据规则进行匹配,帮助案例企业实时地了解企业的业绩状况,提高业务决策的有效性和可靠性。
1 案例企业已有数据系统的现状
案例企业成立于1998年,在其他中介公司还是基于Excel或者使用纸笔来记录房源信息和客户带看信息的时候。该公司已定制部署了一套C/S架构的集中式房源管理信息系统。
在互联网大潮下,企业已无法依赖单一信息系统来与新进者竞争。管理层迫切地希望可以通过新的IT技术手段,把房源等内部信息,与外部数据结合起来做分析,形成一个数据平台,消除数据孤岛。
2 数据匹配
数据匹配是数据之间按照某种内在关系进行配准。
确定性数据匹配方法中,当参与匹配的列都满足匹配规则(相等规约)时,这对记录被认为是同一个实体。目前比较通用的做法是计算每对记录的匹配权重,与用户手动设定的界限值比较,根据比较结果,将该对记录分类为匹配,不匹配或可能匹配。
3 C#
C#是微软推出的一种基于.NET框架的、面向对象的高级编程语言。C?由C语言和C++派生而来,继承了其强大的性能,同时又以.NET框架类库作为基础,拥有类似Visual Basic的快速开发能力。
C#并不被编译成为能够直接在计算机上执行的二进制本地代码。与Java类似,它被编译成为中间代码(Microsoft Intermediate Language),然后通过.NET Framework的虚拟机——被称之为通用语言运行库——执行。
4 正则表达式
正则表达式,又称正规表示式、常规表示法(英语:Regular Expression,在代码中常简写为regex),是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。
许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在C#中就内建了一个功能强大的正则表达式引擎(Regex)。
5 C#结合正则表达式进行模糊数据匹配的实例
5.1 数据查询优化模块设计
由于全市的楼盘信息众多,同时每月的成交数据量也非常大,当需要进行多维度数据查询时,会遇到系统性能瓶颈。故预先将不同数据源的数据依据一定业务规则进行匹配,并预处理和分类。
5.2 数据查询优化有关的主要程序代码
5.2.1 将外部数据与内部数据进行整合、匹配
C#代码中使用正则表达式,通过物业地址的近似度,将临时表中的成交数据与盘源系统中的盘源数据进行匹配。下面以***路***弄***支弄为例。
(1)在代码中定义正则表达式。
(5)序列化数据并入库
嵌有HTML代码的数据流无法直接存入数据库中,故采用了.NET框架中所提供的序列化函数来对数据内容进行处理。
sbArea.Append(CentaBI.ReportLogic.Common.SerializeDataTableXml(dtAreaResult));
6 总结
为了适应行业变化,本文设计并实现了一种通过C#与正则表达式相结合为核心的数据匹配模块。通过掌握更多的行业数据、企业经营业绩数据,成功地为企业的管理和决策提供有力依据。
参考文献
[1]熊建芳,高继,任贺宇,基于ASP.NET的ADO與ADO.NET分析与研究[J].计算机与现代化,2006(07),36-38.
[2]谭学清,谭永丽,陆泉,陈静.商务智能[M].武汉:武汉大学出版社,2006(10).
[3]Alistair McLeod,Business Intelligence:Discover the truth about your business,Waterstons white paper,2005,3-5.
作者单位
上海大学计算机工程与科学学院 上海市 200444