林艳芳
(中国移动通信集团设计院有限公司重庆分公司,重庆 401121)
物联网物(Internet of Things,IoT)理实体的数据搜索服务通常根据设备和用户在任何时间及地点的需求而进行设计。数据质量、搜索延迟、可信任性、可访问性、可靠性与连续性是影响物联网实体数据和服务的高效搜索与访问的关键。然而,物联网的当前数据和服务搜索、发现以及访问方法与解决方案更适合于小批量、静态的数据和服务资源。BI Intelligence的数据表明,2015年,物联网感知设备的数量已超过智能手机、个人电脑,到2020年,其数量将突破240亿。IDC预计,到2020年全球物联网感知设备数量将达到250亿。随着物联网感知资源的大规模部署,我们将面临异构性、复杂性以及数据量方面不同的物联网生态系统。从各种感知资源中有效地发现、排序、选择、访问、融合以及对数据和服务产生理解,需要网络、数据/服务提供商的搜索引擎在适当的时间选择适当的感知资源。物联网环境的分布式、规模化、异构性、多样性、动态性意味着传统的互联网文本搜索模式将远远不适用于大规模物联网物理实体信息的搜索。本文阐述了研究强大而全面的物联网搜索解决方案的一些要求和挑战。
互联网早期的信息访问和检索主要依靠简单的功能和方法。早期的搜索引擎基于Unix下的文字查询功能,但并无排序的机制。其中一些早期的搜索引擎甚至用缩小搜索框的大小以阻止用户添加更多关键字,以便在高峰时间减少服务器的负载(显然,输入更多的关键字增加了搜索复杂性)。互联网在过去二十年中取得了长足的进步,尽管目前信息搜索的能力不断发展,但是一些复杂的方法和解决方案提供了对大量信息进行索引、排序、搜索的能力。新一代的Web搜索引擎专注于信息抽取和个性化定制知识的抽取技术。尽管使用大量背景知识(即知识图谱)的语义搜索,如浏览个性化的广告第一次可以追溯到2000年,但这种方法也仅仅在过去几年成为主流。一些由结构化数据和知识图谱驱动的搜索服务成为互联网搜索服务商的主营业务。
物联网演进的下一步是从物理世界中更好地收集并发布多模、多源物理实体信息。这要求机器以对话方式反映用户的信息需求,或基于情境信息(例如时间,位置和类型),而不是用户在搜索框中简单地键入关键字。原始数据通常也需要从不同的来源集成,并进一步分析以提取信息与知识(而不是呈现原始观察和测量结果)。图1展示了物联网数据发现场景。在图1中,数据需要在索引/发现服务器上索引并发布,搜索与发现机制应能够基于情境信息发现物理实体相关数据。
过去,网络搜索引擎被用于处理和索引网页信息。现在,搜索引擎可能还需处理海量的物联网设备产生的数据。在查询时,描述感知设备提供的数据信息将使搜索引擎能够找到数据的来源。这样的数据无法预测,但数据的参数和上下文可以被注册和索引。例如,索引服务器可以包含有关数据源及其提供者的信息。最近,Schema.org的研究表明:若内容开发人员能够描述数据的信息,则有助于搜索引擎表征数据并快速匹配用户查询。对于物联网而言,需要研究一个类似的解决方案,除了描述内容(数据)之外,还需要描述数据源的信息(即设备和网络信息)。使用基于语义Web方法的Linked Open Data可以很好地解决这个问题。W3C的语义传感器网络孵化器组及其后续的W3C Web空间数据工作组(www.w3.org/2015/spatial)也在数据的描述方面取得了一些研究成果。
图1 物联网数据发现框架
物联网在感知设备、通信协议以及物理世界实体对象与当前互联网Web架构的集成方面取得了越来越大的进步。在不久的将来,物联网将真正成为互联网的内在延伸。通过使用底层网络和通信技术,用户将可以通过互联网与物理世界实体进行交互。图2显示了一个物联网框架,其中包含各种传感器设备以及可通过社交媒体和其他应用程序发布的用户和群智感知信息。数据可以由各种设备(图中的无线传感器网络)以及其他智能设备(图中的网络使能设备),应用程序和社交媒体流提供。数据可以由网关和其他中间件组件直接发布或中继。索引和发现服务将能够读取数据提供者的参数和属性,并创建高效、分布式、可扩展的解决方案,以查找、发现和访问数据。查询可由用户、应用程序和其他需要根据不同标准(如位置、时间)获取数据的设备发起。
然而,目前的物联网信息访问和检索方法仍处于20世纪90年代后期互联网文本搜索阶段。大规模物联网的信息检索基于这样一种假设:设备和消费者知道信息的来源,以便查找其他相关资源并与之交互。例如,Google的Physical Web项目(http://google.github.io/physical-web)也是基于此假设而设计。Physical Web在自动驾驶、车辆与基础设施通信等场景中具有极大的应用前景。然而,物联网系统还需要在环境监测、智慧城市和灾难应急等场景中搜索和发现大型分布式网络中的资源。
最近,研究人员为IoT设备、服务及其数据的(语义)注释和描述提供了解决方案。然而,大多数这些方法依赖于集中式解决方案和复杂的查询机制,这些机制阻碍了复杂的物联网系统的可扩展性及大规模部署与应用的潜力。Shodan(www.shodan.io)和Thingful(http://thingful.net)等一些正在进行中的研究项目为物联网搜索提供了解决方案。但是,它们主要依赖于集中索引和用户手动提供数据的元数据信息,这些元数据的描述能力非常有限(如传感器的位置描述无法依据位置变化而改变)。目前的方法无法解决用户诸如搜索“北京市的交通传感器”等搜索问题,并且在搜索语义化方面还有很长的路要走。