一种基于爬虫和html 特征提取的移动端跨应用资讯整合展示方案

2019-12-04 14:34林帆南京熊猫汉达科技有限公司秦晓华泰证券股份有限公司

数码世界 2019年11期

林帆南京熊猫汉达科技有限公司秦晓华泰证券股份有限公司

一、借助爬虫技术以及html 特征提取技术进行移动端跨应用资讯整合研究的背景

进入新世纪后，互联网开始迅速普及和快速发展，与传统的信息传播方式及娱乐形式相比，互联网无疑为人们提供了一个更加便利快捷的平台。近年来，借助网络技术来进行重要资讯的搜索，已经成为了人们日常生活中必备的技能，如何在进行搜索时进一步提升其智能化水平，最大程度的方便用户的生活，是网络设计人员十分关注的重点。用户在浏览不同地址内的网络内容时接收到海量信息，如何进行系统级信息整合，是一个亟待研究和解决的技术问题。想要通过智能化的手段对相关的数据信息进行搜索，仅仅通过人力是难以完成的，因此，借助网络爬虫技术以及html特征提取技术来对移动端跨应用资讯进行整合和展示，使得资讯更加便于管理和浏览，便具有其特殊的价值。

二、基于爬虫以及html 特征提取进行移动端跨应用资讯整合展示平台的具体设计

网络爬虫技术，也称网页信息采集器，是在进行互联网登录时对网页的计算机程序和自动化脚本进行下载的技术，它作为搜索引擎的重要组成部分，能够从一个独立的URL 开始对网页信息数据进行存储，然后通过关键词进行信息的筛选，最终选出最恰当的数据。通过网络爬虫技术和html 特征提取技术的联合应用，能够实现对用户所需数据的智能化提出、整合以及在移动端的展示。

首先，需要建立一个智能化数据提取及呈列系统，该系统主要由URL 发现、html 解析和提取、互联网数据存储以及数据统计四个部分组成。

目前展示网页主要有两种方式，1. 使用Android WebView 加载HTML5，2.使用HTTP 获取到文章的内容，在前端通过TextView的方式来展示。因此想获取到文章的信息，就要针对这两种方式分别考虑：

针对WebView 加载HTML5 的方式，在Android 系统层面，可以直接通过Android Webview API 读取到当前应用WebView 中加载的URL。这样就可以很方便的获取到网页的URL；针对使用TextView 展示的文章，设计者可以通过Android FrameWork 读取到TextView 中展示的信息，并通过规则匹配，获取到文章的标题和部分文章内容，然后使用爬虫的方式来通过标题、部分内容获取到网页的URL。

html 网页解析模块，则是指对网页信息进行解析，当解析出来的网页不属于html 网页的范畴后，之后的步骤将会被省略，从而实现数据的高效解析。在完成网页的解析之后，需要针对用户的需求进行数据提取，而数据的提取设置需要人工智能技术的应用，避免传统的命令式搜索导致搜索结果实用性不强等情况的出现。通过HttpClient 请求网页URL，利用JSoup 来解析页面源码，就可以获取到页面HTML 源码，接着对下载到的HTML 源码进行提取正文并转码，从而实现对网页的收藏功能，并支持离线搜索。

互联网数据存储和统计模块，是指将网页的信息资料进行存储并用于统计的部分，这部分在应用的过程中通过将一些常用的汉语词进行组合，形成对应的构成词，在进行智能化搜索时，借助构成词来进行信息的高效检索，并建立能够适用于移动端的跨APP 信息整合展示平台。

三、爬虫技术及html 特征提取技术在移动端跨应用资讯整合展示中的优势

借助网络爬虫技术以及html 特征提取技术，能够首先建立一个独立的搜索引擎，即建立一个有效的信息处理引擎，这个引擎能够将输入的关键词作为搜索指征，从而对整个网络页面进行搜索，一般来说，搜索引擎是包括三个部分的，即上下层的搜索引擎以及与移动端进行信息连接和传递的结构。现阶段，下层引擎最常见的是文本处理和转码引擎，而上层则采用了智能化搜索引擎如dart framework 等。通过这种引擎的应用，有效改善了传统非智能化搜索引擎“命令搜索法”造成搜索整理内容较为生硬的情况，并且避免了搜索页面快速跳跃，部分网页内容无法覆盖的问题。

其次，通过在上层搜索引擎中引入dart framework，能够为基于html 特征提取的资讯整合技术提供更多的选择手段，使得搜索形式更加丰富多样。具体来说，通过应用dart framework，使得原有的单一命令式搜索转变为当前的AOT 搜索模式以及JIT 搜索模式两种模式。在非移动终端进行使用时，需要应用AOT 模式来对输入的关键词以及特征信息进行提取和计算，将其快速的转换为计算机代码，从而在短时间内获取到极大量的相关数据信息，这对于展示平台的建设是大有裨益的。正是因为AOT 搜索模式的上述特性，它常常被用作计算机的搜索上，可显著提升搜索效率，方便工作人员建立工作库。而JIT 搜索模式，则能够将一些重点、搜索率更高的信息首先呈递给移动端的用户，让他们通过浏览最重要的信息获取到相应的结果，并且在这个结果上进行引申，查询到更多相关的结果。

另外，在进行移动端跨应用资讯的搜索和整合时，需要建立相应的搜索页面和数据呈现页面，而这一页面是通过参照widget tree 来实现的，尽管这种树状图看起来较为繁琐，不容易获取到关键信息，但是当捋顺它的原理之后，能够快速，简便的获取到网页上符合特征提取技术输入关键词的信息，因此，通过这种技术的应用能够有效简化流程，并提升搜索效率。

四、结语

综合全文，本文对网络爬虫对html 网页进行解析的全部过程以及html 特征提取技术在众多信息中的提取及技术实现做了介绍，通过以上技术的应用，能够从诸多繁杂的信息里进行深入的数据挖掘，从而实现移动端跨应用资讯的提取和整合。通过这种办法，能够在大量的互联网信息中，根据所需要数据信息的特征对各种网页数据进行提取，并且将这些提取到的数据通过移动端智能设备进行展示。用户在对这些信息进行浏览时，很容易借助特征提取的方法将自己希望得到的信息加以浏览，从而为用户提供足够的便利性。

但是通过本次研究我们可以发现，现阶段我国在互联网进行网络爬虫技术以及html特征提取技术来进行移动端跨应用资讯的整合时，在特征提取准确性、信息提取量、资讯整合排版以及搜索便利性等方面与西方发达国家仍然存在着较大的差距，针对这种情况，有必要进行进一步的研究和探索，努力加速建立更加完善、可靠的移动端跨应用资讯整合展示水平。