摘要:文本抽取是信息检索的一个重要问题。设计并实现了一个利用IFilter接口的过滤器组件,抽取非文本文件的文本信息的程序。对这一设计过程论述了其主要的关键技术。
关键词:文本抽取;非文本文件;IFilter接口;过滤器组件
中图分类号:TN393.09文献标识码:A文章编号:1009-3044(2011)27-6682-02
Key Technologies of Extracting Text of non-Text Files Based on IFilter
XU Hui
(School of Information & Statist