伍大勇 刘挺
摘要: 提出了一种弱指导的方法从搜索引擎查询日志中挖掘命名实体。该方法中采用人工选择的少量命名实体名称作为种子,使用随机游走模型从查询日志中获得大量的命名实体。其中采用了查询日志中的实体上下文模板,用户点击URL和候选命名实体构建三分图,根据在该图上的随机游走计算候选命名实体属于指定目标实体类别的概率,从而在查询日志中获取该类别的命名实体。在真实的查询日志上对7个实体类别进行的实验,实验结果显示本文方法在各个类别上均获得较好的命名实体挖掘效果。
关键词:
中图分类号:TP391.3文献标识码:A文章编号:2095-2163(2012)04-0022-06