基于IFilter的非文本文件中抽取文本的关键技术

2011-12-31 00:00:00徐辉
电脑知识与技术 2011年27期


  摘要:文本抽取是信息检索的一个重要问题。设计并实现了一个利用IFilter接口的过滤器组件,抽取非文本文件的文本信息的程序。对这一设计过程论述了其主要的关键技术。
  关键词:文本抽取;非文本文件;IFilter接口;过滤器组件
  中图分类号:TN393.09文献标识码:A文章编号:1009-3044(2011)27-6682-02
  Key Technologies of Extracting Text of non-Text Files Based on IFilter
  XU Hui
  (School of Information & Statist