信息爆炸的时代正在慢慢接近尾声。企业终于能自如地管理海量的数据、内容和信息。信息创建的步伐持续加快,且基础设施和信息管理同步的能力日渐可期。现在,普遍认为大数据是一种祝福,而不是诅咒。即便如此,管理信息和充分利用信息是不一样的。非结构化内容占一个企业总信息资产的80%。虽然大数据技术和技巧非常适合探索非结构化信息,这种“大内容”仍然严重利用不足,其潜力尚未开发出来。
Gartner所定义的非结构化数据是指内容并没有遵从一个特定的、预定义的数据模型。非结构化数据是基于人生成的和以人为本的内容,其并不适合放入数据库表里。企业内部的非结构化内容形式多样,包括商业文件(报告、演讲文稿和电子表格等)、电子邮件和web内容。每一种内容来源均有成熟的体系支撑。商业文件通过ECM平台指导完成其整个生命周期。邮件与其他基于文本的通信渠道被管理、监控及归档。更加复杂的web内容则通过同样复杂的Web内容管理工具进行匹配。每一个平台都侧重于集中管理和保留,而不是分析和挖掘。这些平台并不是为其管理的内容提供先进的分析和挖掘能力,它们也没有能力这样做。然而,它们可以为支持“大内容”基础设施提供一个坚实的基础。
企业拥有和经营的信息只是“大内容”的一部分。当利用公共信息增强并提升企业信息时,洞察力和智能的潜力就得到显著扩大。来自社交流的内容能直接进入顾客的内心。博客、微博、评论和评级反映在任何给定的时间点的公众情绪。如管理得当,例如新闻文章、产品信息和简单的企业信息网页等更多传统内容就会成为内部研究的一个延伸。在以“大内容”方式开展时,所有非结构化(和半结构化)信息来源成为企业信息资源的有价值扩展。
Gartner公司将大数据技术和技巧如何能应用于非结构化信息资源的研究称之为“大内容”。“大内容”将大数据的技术和技巧与先进的内容管理和企业搜索的独特功能结合在一起,以之前不可能实现的方式加速知识发现。内部文件、电子邮件和合作物品能与公共网页和博客、微博和状态更新等社交内容相结合,以在产品问题成为困扰时得到及时发现。为特定目的而建的、统一的搜索索引和应用通过跨企业汇集创新指标而阐明知识产权所有权,同时也要提供融入更广阔的市场和专利格局的统一视图。如可以利用医嘱、电子健康记录和保险理赔来创建个性化的治疗计划。
很多情况下,企业中已有促进这些应用的原材料。众多组织机构拥有生产解决方案并且能回答以前无法回答的问题。大数据和“大内容”的答案和见解得来并不容易,也不便宜。整个企业的非结构化内容非常丰富,但它往往是孤立、无条理和未被管理的。即使部署了支持内容和企业搜索引擎的内容管理系统(CMS),也可能他们还没有被用作分析。它们是“大内容”解决方案必要但不充分的组件。可部署大数据技术和技巧来弥补其中的差距。然而,即使存在一个成熟的大数据实践,也必须要考虑和解决非结构化内容的额外因素。
许多关键的业务问题的答案往往分散在企业内部的非结构化内容之中。由于跨信息资产的不可访问性和不一致性,致使洞察力仍然深锁。通过将那些内容资源与增强的大数据技术和技巧进行提炼、调和并集成,“大内容”实现了之前用于结构化数据资源的深入和非浅显的分析。