Bob+Violino
编译 Charles
数据挖掘是一种自动化的过程,对大量的数据集进行排序,确定趋势和模式,并建立关系。
当今的企业正在收集各种来源日益增长的信息,包括网站、企业应用程序、社交媒体、移动设备,以及越来越多的物联网(IoT)设备等。
最大的问题是怎样从这些信息中获得真正的商业价值?这正是数据挖掘大显身手的地方。数据挖掘是一种自动化的过程,对大量的数据集进行排序,确定趋势和模式,并建立关系,通过分析数据来解决业务问题,或者发现新机会。
这不仅仅是通过检查数据来看看过去发生了什么,而是要在当下采取明智的行动。数据挖掘工具和技术使您能够预测未来会发生什么,并据此采取行动,顺势而为。
术语“数据挖掘”在IT行业应用得相当广泛。它经常应用于各种大规模数据处理活动,例如收集、提取、存储和分析数据等。它还可以包括决策支持应用程序和技术,例如人工智能、机器学习和商业智能。
数据挖掘被用于业务和研究的很多领域中,包括产品开发、销售和市场营销、遗传学和控制论,等等。如果应用的合适,数据挖掘和预测分析相结合能够让您比那些不使用这些工具的竞争对手更有优势。
从数据挖掘中获取业务价值
数据挖掘的真正价值源于能够挖掘出隐藏在模式和数据关系中的“宝石”,用于做出对企业产生重大影响的预测。
例如,如果一家公司确定经过某次营销活动后,某一产品型号在该国某些地区的销售要比其他地区好得多,那么今后就可以重新调整这类活动以获得最大回报。
技术所能带来的好处取决于业务类型及其目标。例如,与航空公司和金融服务行业相比,零售业的销售和营销经理会以不同的方式来挖掘客户信息,以吸引更多的客户。
不论是那种行业,过去应用于销售模式和客户行为的数据挖掘可以用来创建预测未来销售和行为的模型。
数据挖掘还有助于消除可能危害企业的活动。例如,您可以使用数据挖掘来提高产品的安全性,或者检测保险和金融服务交易中的欺诈行为。
数据挖掘的应用
数据挖掘几乎可以应用到所有行业的各种应用中。
● 零售商可以部署数据挖掘,更好地识别出人们会根据过去的购物习惯来购买哪些产品,或者在一年中的某些时间段哪些商品会销售得更好。这可以帮助商家做好库存计划和店面布局。
● 银行和其他金融服务提供商可以挖掘与客户账户、交易和渠道偏好相关的数据,以更好地满足客户需求。他们还可以收集来自网站和社交媒体互动的数据,以帮助提高现有客户的忠诚度,并吸引新客户。
● 制造企业可以使用数据挖掘来发现生产过程中的规律,精确地识别出存在瓶颈和缺陷的方法,找到提高效率的途径。他们还可以把数据挖掘中的知识应用到产品设计中,并根据客户体验反馈进行调整。
● 教育机构能够从数据挖掘中获益,例如,分析数据集以预测学生未来的学习行为和表现,然后利用这些知识改进教学方法或者课程。
● 卫生保健提供商可以挖掘并分析数据,以确定护理病人更好的方式,并降低成本。在数据挖掘的帮助下,他们可以预测需要照顾多少病人,以及病人需要什么样的服务。在生命科学中,数据挖掘可以用来从大量生物数据获得深度分析结果,帮助开发新药和其他治疗方法。
● 在很多行业中,包括卫生保健和零售业,可以使用数据挖掘发现欺诈和其他犯罪行为——能够比传统方法更迅速地识别出此类活动。
数据挖掘的关键组成
数据挖掘过程包括几个不同的组成,以满足不同的需求:
● 预处理。在应用数据挖掘算法之前,您需要构建一个目标数据集。数据的常见来源是数据集市或者数据仓库。您需要执行预处理才能分析数据集。
● 数据清洗和准备。必须对目标数据集进行清洗和准备,去掉“噪声”,处理缺失值,筛选无关的数据点(用于异常检测),以消除错误,或者进行进一步的研究,创建分段规则,执行与数据准备相关的其他功能。
● 关联规则学习(也称为市场购物篮分析)。这些工具搜索数据集中变量之间的关系,例如确定一个商店中哪些产品会被经常一起购买。
● 聚类。数据挖掘的这一特性被用来发现数据集中在某种程度上相似的群组和结构,而不必使用数据中已知的结构。
● 分类。执行分类的工具将已知的结构归纳应用到新的数据点,例如电子邮件应用程序把消息分类为合法邮件和垃圾邮件。
● 回归。这种数据挖掘技术用于预测某一具体数据集的数值范围,例如销售额、住房价值、温度或者价格等。
● 总计。这种技术提供了一个数据集的紧凑表示,包括可视化和报表生成。
数十家供应商提供数据挖掘软件工具,一些提供专有软件,另一些则通过开源工作交付产品。
提供专有数据挖掘软件和應用的主要供应商有Angoss、Clarabridge、IBM、微软、Open Text、Oracle、RapidMiner、SAS研究院和SAP。
提供开源数据挖掘软件和应用的企业有Carrot2、Knime、Massive Online Analysis、ML-Flex、Orange、UIMA和Weka。
数据挖掘的风险和挑战
数据挖掘也伴随着风险和挑战。与任何涉及使用敏感或者个人身份信息的技术一样,安全和隐私都是最令人关注的问题。
从根本上讲,被挖掘的数据应完整、准确和可靠;毕竟,您使用它来做出重大业务决策,经常与公众、管理方、投资方和商业合作伙伴进行交流。现代形式的数据也需要新技术,例如将各种分布式计算环境产生的数据集(也称之为大数据集成)与图像和视频、时域数据和空域数据等更复杂的数据集成在一起。
获取正确的数据,然后把它们整合在一起,这样就可以对其进行挖掘——IT面临的挑战远不止这些。云、存储和网络系统需要高性能的数据挖掘工具。从数据挖掘中得到的信息应能够清晰地呈现给那些希望采取行动并解释它的广大用户。您需要有数据科学和相关领域技能的人才。
从隐私的角度看,如果挖掘与人们的行为、购买什么、访问哪些网站等相关的信息,那么这种想法可能会让人们担心公司收集的信息太多了。这不仅影响您的技术实现,而且还影响您的业务策略和风险分析。
除了全方位跟踪个人的伦理问题之外,对于怎样收集数据、确定个人身份以及共享这些信息等也有法律规定。美国的健康保险流通与责任法案(HIPAA)和欧盟的通用数据保护条令(GDPR)都是人们所熟知的法规。
在数据挖掘中,最初的准备活动,例如汇集然后使数据合理化等,能够发现可能危及数据机密性的信息或者模式。因此,有可能在无意间与伦理问题或者法律要求相冲突。
数据挖掘还需要数据保护,每一步都是如此,以确保数据不会被窃取、更改或者被偷偷地访问。安全工具包括加密、访问控制和网络安全机制。
数据挖掘是关键的不同之处
尽管存在这些挑战,数据挖掘已成为很多企业IT战略的关键组成,这些企业希望能够从他们收集或者访问的信息中获取价值。随着预测分析、人工智能、机器学习以及其他相关技术的不断进步,这种发展趋势无疑会进一步加速。
Bob Violino——目前在纽约,是Computerworld、CIO、CSO、InfoWorld和Network World的特约撰稿人。
原文网址:
http://www.infoworld.com/article/3218151/data-mining/what-is-data-mining-how-analytics-uncovers-insights.html