通过C#实现房屋中介行业数据的模糊匹配

2017-03-27 20:37宋家麟
电子技术与软件工程 2017年4期

宋家麟

摘 要 房屋中介行业的经营者常会从不同的数据源中提取相关的成交数据、业绩数据,对数据进行清理以保证数据的正确性。随后将数据进行不同维度的匹配,从而将数据变为信息和知识,以辅助企业做出正确的决策。本文尝试通过C#语言结合正则表达式来解释数据进行匹配如何在行业中应用。

【关键词】房屋中介 成交数据 数据匹配 C#

以往房产中介企业以房源信息为导向,而对业绩状况做分析可以帮助决策层更了解自己和对手。企业的管理者需要从系统中发掘更多数据资产,基于此来进行更好地进行市场的战略部署。

本文结合微软的.NET技术,对现有的房源信息、销售数据和市场成交数据依据规则进行匹配,帮助案例企业实时地了解企业的业绩状况,提高业务决策的有效性和可靠性。

1 案例企业已有数据系统的现状

案例企业成立于1998年,在其他中介公司还是基于Excel或者使用纸笔来记录房源信息和客户带看信息的时候。该公司已定制部署了一套C/S架构的集中式房源管理信息系统。

在互联网大潮下,企业已无法依赖单一信息系统来与新进者竞争。管理层迫切地希望可以通过新的IT技术手段,把房源等内部信息,与外部数据结合起来做分析,形成一个数据平台,消除数据孤岛。

2 数据匹配

数据匹配是数据之间按照某种内在关系进行配准。

确定性数据匹配方法中,当参与匹配的列都满足匹配规则(相等规约)时,这对记录被认为是同一个实体。目前比较通用的做法是计算每对记录的匹配权重,与用户手动设定的界限值比较,根据比较结果,将该对记录分类为匹配,不匹配或可能匹配。

3 C#

C#是微软推出的一种基于.NET框架的、面向对象的高级编程语言。C?由C语言和C++派生而来,继承了其强大的性能,同时又以.NET框架类库作为基础,拥有类似Visual Basic的快速开发能力。

C#并不被编译成为能够直接在计算机上执行的二进制本地代码。与Java类似,它被编译成为中间代码(Microsoft Intermediate Language),然后通过.NET Framework的虚拟机——被称之为通用语言运行库——执行。

4 正则表达式

正则表达式,又称正规表示式、常规表示法(英语:Regular Expression,在代码中常简写为regex),是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。

许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在C#中就内建了一个功能强大的正则表达式引擎(Regex)。

5 C#结合正则表达式进行模糊数据匹配的实例

5.1 数据查询优化模块设计

由于全市的楼盘信息众多,同时每月的成交数据量也非常大,当需要进行多维度数据查询时,会遇到系统性能瓶颈。故预先将不同数据源的数据依据一定业务规则进行匹配,并预处理和分类。

5.2 数据查询优化有关的主要程序代码

5.2.1 将外部数据与内部数据进行整合、匹配

C#代码中使用正则表达式,通过物业地址的近似度,将临时表中的成交数据与盘源系统中的盘源数据进行匹配。下面以***路***弄***支弄为例。

(1)在代码中定义正则表达式。

(5)序列化数据并入库

嵌有HTML代码的数据流无法直接存入数据库中,故采用了.NET框架中所提供的序列化函数来对数据内容进行处理。

sbArea.Append(CentaBI.ReportLogic.Common.SerializeDataTableXml(dtAreaResult));

6 总结

为了适应行业变化,本文设计并实现了一种通过C#与正则表达式相结合为核心的数据匹配模块。通过掌握更多的行业数据、企业经营业绩数据,成功地为企业的管理和决策提供有力依据。

参考文献

[1]熊建芳,高继,任贺宇,基于ASP.NET的ADO與ADO.NET分析与研究[J].计算机与现代化,2006(07),36-38.

[2]谭学清,谭永丽,陆泉,陈静.商务智能[M].武汉:武汉大学出版社,2006(10).

[3]Alistair McLeod,Business Intelligence:Discover the truth about your business,Waterstons white paper,2005,3-5.

作者单位

上海大学计算机工程与科学学院 上海市 200444