说明:(1)点击文章链接,将下载之后的默认文件名作为文章ID(是文献的唯一标识符),比如链接 https://www.aclweb.org/anthology/C12-1150.pdf 下载之后的文档默认名为C12-1150,打开文件后文章标题为:Initial explorations on using CRFs for Turkish Named Entity Recognition。(2)人工阅读文献全文,重点为摘要和方法论部分。识别其中作者使用的研究方法实体。(3)实体类型分为四类,分别为:algorithm & model, tool, data source, index & measurement(现有一个方法词典可供参考)。(4)实体句为文章明确提出使用了前面对应单元格里方法实体的句子。若一篇文章对于某个实体有多个句子,比如文章在摘要和方法论部分均提到使用了CRF模型。则仅标注最先使用的句子,即摘要里面那句话。
(1)句子中含有algorithm、model、approach、rules、grammar等提示词属于算法模型的可能性比较大。
(2)句子中含有package,parser,platform,tool,toolkit,API和一些特殊的以“er”结尾的名词属于工具的可能性大。
(3)句子中含有Wikipedia、corpus、dataset、corpora和一些经典评测会议使用的数据集,比如CoNLL 2002/2003、ACE 2005等名词属于data source的可能性大。
(4)句子中含有metrics,values,points,scores,test,rate等词属于评价指标的可能性大。
(5)注意所有句子中全大写的单词,有可能是实体。