文本内容信息过滤系统的研究与设计

2012-04-29 12:01邹岚徐芳
电脑知识与技术 2012年34期
关键词:词库拼音文本

邹岚 徐芳

摘要:该文设计的文本内容信息过滤系统使用PHP开发设计,做为PHP网站的一个功能接口,该系统主要功能有:后台管理、非法信息过滤、远程页面检测和自动安装等。系统方便了网站管理员对词库、检测日志报告等信息的管理,同时系统自动检测网站信息内容并过滤其中的不良信息,大大提高了网站管理员审核文章等信息内容的速度和效率。该文研究与设计的系统在一定程度上抑制了非法信息在网络上的传播,净化了网络环境,为网络用户提供了一个良好健康的信息资源环境。

关键词:文本;信息过滤;敏感词

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2012)34-8187-05

1概述

随着互联网的发展,人们享受网络技术带来的美好生活,同时也使某些不法分子通过网络传送非法信息。随着网络技术的发展和应用,网上色情、暴力、反动等不良信息时有传播,而且有泛滥的趋势,因此,网络信息安全值得大家去关注和研究。在此背景下,为了滤除网络文本内容中的不良信息,减少不良信息在网络中传播,为网络用户提供一个良好健康的信息资源环境,就需要建立一个高效的信息过滤系统,对信息发布者所发布的信息内容进行分析过滤,滤除其中的不良信息内容。该文主要是研究与设计文本内容信息过滤系统,使用PHP开发,该系统做为PHP网站的一个功能接口,对信息发布者发表的评论、文章内容等信息进行监控,通过信息过滤系统分析,过滤其中出现的不良信息,再将过滤后的信息内容返回给网站,最后网站再将信息发布。该文对文本内容信息过滤技术进行研究,净化网络文本信息,为网络用户提供一个良好健康的信息资源,就需要建立一个高效的信息过滤系统,对信息发布者的信息进行分析过滤。该文在理论研究的基础上,设计了一个文本内容信息过滤系统,并应用于中小型网站,获取用户发表的评论、文章等内容信息,通过信息过滤系统分析,过滤文中出现的不良信息,再将信息返回给网站,网站再将信息发布。

2系统功能需求

文本内容信息过滤系统对网站信息发布、公众信息公开申请和网站留言等模块内容实现提交时的自动过滤处理,发现有谩骂、诽谤、等非法言论进行自动过滤,并给用户友好的提示,同时向管理员提交报告。从而大大提高了审核速度和效率。使用PHP开发设计文本内容信息过滤系统,该系统可将文本内容中的有害信息滤除,并可对已经发表的文章内容进行检测,得出检测结果,通知管理员对该文章进行相应的操作,如修改或删除操作。信息过滤流程如图1所示。

(1)数据库设计

使用MySQL数据库,设计结构清晰,方便管理的词库表、用户表与日志表等,词库表中包含了敏感词名、敏感词、词类别等信息。用户表中包含了用户名、用户密码、用户类别信息。日志表则包含了检测结果、URL地址、原文章内容。

(2)中文简体转繁体功能

MySQL数据库字符集设置的为GBK格式,敏感词为简体。而在用户发表文章时,文章内容信息往往含有繁体敏感词。在对用户发表文章中的文本内容,进行信息过滤时,需要进行敏感词的简繁转换,提高信息过滤的准确性。中文简体转繁体流程如图2所示。

(3)中文转换拼音功能

许多敏感词都以拼音字母的形式出现在各个文章中,中文转换拼音的功能应用到文本内容信息过滤系统中,可以有效地滤除文章中的有害敏感词信息,使得过滤有害信息更加精确。中文转拼音流程如图3所示。

3系统设计

本系统整体上包括四大模块:后台管理模块、信息过滤模块、页面检测模块和自动安装模块。后台管理模块为管理员提供一个管理敏感词库、用户管理、权限管理等操作后台。信息过滤模块为本系统的核心模块,将文本内容的敏感词进行分析,过滤文本内容中的非法词汇。页面检测模块是检测远程URL地址,提取网页源码,分析其中的文本内容滤除有害信息。自动安装模块是对系统进行配置,如数据库连接信息,创建系统管理员,并生成配置文件。文本内容信息过滤系统结构如图4所示。

3.1后台管理设计

本系统为管理员设计一个友好、简洁、功能完善的后台管理,管理员能够进行用户的管理,词库的管理,对词库中数据可增加、删除、修改、查询等操作以及权限管理。

3.2信息过滤模块设计

信息过滤模块包括了简繁转换,中文转拼音与信息过滤,喜好词生成等功能。能够对用户发表的文章中的不法信息进行滤除,对用户所搜索的关键词进行分析,智能生成喜好词,方便用户搜索自己感兴趣的信息。

3.3页面检测模块设计

页面检测模块用于检测未经过信息系统过滤已发布的文章或评论,可对多页面检测,并将检测结果入库,得出分析报告,管理员根据报告内容,可对原URL文章的内容进行修改或者删除操作。

3.4自动安装设计

自动安装模块是用于对系统进行全新安装,进行三个步骤安装。第一步:填写系统配置信息,生成配置文件。第二步:创建系统管理员。第三步:创建系统数据库,包含了系统敏感词库。

3.5数据库表

本系统针对系统功能的分析,设计了5张表:用户表、角色分类表、敏感词表、敏感词分类表和日志报告表。对系统表的设计满足了第三范式,消除了多值依赖和传递依赖。

4关键模块的实现

4.1简体转繁体模块

通过简体转繁体功能,可以将简体转换为繁体。当用户发表的文章或评论内容含有繁体敏感词时,信息过滤系统也应分析文本内容中的繁体敏感词。本系统采用对文本内容进行分析时,将词库中的简体敏感词转换为繁体,繁体敏感词不需要存储在数据库中,从而减少词库的容量。

简体转繁体函数实现代码如下:

4.2中文转拼音模块

中文转拼音功能是将中文转换为拼音字母形式。目前,很多用户发表的文章中往往含有以拼音字母形式出现的敏感词。若是将敏感词的拼音也存入数据库中,这会增大词库的容量。本系统采用在对文本内容分析时,对其中的拼音形式出现的敏感词,先将中文转换为拼音形式,再进行分析过滤操作。

关键代码如下:

4.3信息过滤模块

信息过滤模块用于过滤文本内容中的敏感词。通过将文本内容中的字符串与词库中的敏感词进行比较是否匹配,若匹配,则进行过滤替换操作,当文本内容分析过滤完毕,计算文本内容中所有敏感词的敏感值总和,当该值大于等于过滤阀值时,改文本内容不予发布。

信息过滤模块的设计思想:第一步,取出词库中第一个敏感词,与文本内容的字符串进行比较是否匹配,若匹配,则进行过滤替换操作。第二步,将该敏感词转换为繁体,再与文本内容的字符串进行比较是否匹配,若匹配,则进行过滤替换操作。第三步,将该敏感词转换为拼音,再与文本内容的字符串进行比较是否匹配,若匹配,则进行过滤替换操作。

关键代码如下:

5小结

该文研究和设计的系统采用了关键词匹配技术,对文本内容中出现频率较高的敏感词优先分析过滤,再根据待检测的文本内容中首个出现的敏感词,对该敏感词类型进行深度的分析过滤,提高对不良信息内容过滤的精确度。

参考文献:

[1]Sung-HyukC,SargurN.Afastnearestneighborsearchalgorithmbyfiltration[J].PatternRecognition,2002(3):76-79.

[2]CavnarWB.Usingann-gram-baseddocumentrepresentationwithavectorprocessingretrievalmodel[J].TREC-3,1994(1):48-50.

猜你喜欢
词库拼音文本
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
输入法词库乾坤大挪移
词库音系学的几个理论问题刍议
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
快乐拼音
快乐拼音
环境变了,词库别变
如何快速走进文本
将用户词库快速导入搜狗五笔词库