机器挖掘文本，允许还是禁止

2013-04-11 01:30陈秀刚编译

世界科学 2013年7期

陈秀刚/编译

●科学家想要让机器读取学术期刊网中的论文，出版商显然不乐意，两方正在激烈交锋。

科研工作者们在过去的一年里，普遍抱怨出版商不让他们使用计算机程序下载和阅读论文。他们认为出版商阻碍了他们的学术研究。

由于担心文章内容可能会被随意重新分配，出版商一旦发现机器在阅读全文，通常会立即阻止程序运行，就算用户支付费用也不能破例。他们只把权限给那些在逐案基础上访问和使用的协议客户。现在，欧洲委员会（ECC）和出版商财团正试图创建更清晰的规则。但从不久前出版商给欧洲委员会组的投诉来看，讨论文本数据挖掘的分歧依然存在。

“如果数据和文本挖掘技术继续受到目前法律的限制，……下一个医学突破将被封杀。”欧盟委员会委员副总裁尼莉克罗斯(Neelie Kroes)在去年九月的布鲁塞尔知识产权峰会上如是说。

数据挖掘的使用

●text2genome项目从300万篇研究论文中提取出DNA序列链接，创造出了在线基因组图谱，其中每个区域与一篇研究论文相链接。

●NeuroSynth网站从近4 400篇研究文章中提取了脑扫描数据，允许用户将人类大脑中的位置与相关研究术语和主题相链接。

●化学数据。SureChem网站成功从约20万项专利中提取免费的分子数据。

●研究人员在论文数据库中从两千余万篇文章中搜查摘要，发现了上皮细胞钙粘蛋白（细胞粘附分子）和帕金森氏症之间的间接联系。

出版商说，到目前为止，几乎没有研究人员提出挖掘文件的要求。尽管如此，阿姆斯特丹的出版商爱思唯尔说，2012年，电脑机器人在其SCIENCEDIRECT网站平台上爬行的流量占据网络总流量的4%，几乎是2011年的两倍。不管初衷是什么，这一数字表明，不只是人类，机器也越来越会阅读文章。

劳尔·罗德里格斯·埃斯特班，是康涅狄格州里奇菲尔德市勃林格殷格翰制药公司的一名计算生物学家，他说，他在2012年进行了160项文本挖掘查询。在其中一项里，他搜索了23 000余篇文章，挑选出数百蛋白质，可以减轻多发性硬化症的小鼠模型。然后，他勾勒出网络中相关的其他蛋白质，并发现了新的潜在的药物目标。学术研究人员希望能获得这种能力，但需要数月或数年谈判协议才能获得。位于加利福尼亚州的圣克鲁斯大学的马克思·霍伊斯勒（Max Haeussler），花了三年时间获得下载3万篇文章的权利，他从这些文章中提取DNA数据，并在人类基因组在线地图中进行了标注。

今年下半年，英国将在非商业用途方面豁免文本挖掘的版权，从而使科学家在挖掘之前获取他们需要付费的任何内容。文本挖掘人员希望欧盟也能这样做。“目前用户间热传的口号是：‘我们应该有阅读的权利’”英国曼彻斯特大学国家中心文本挖掘副主任约翰·麦克诺特说道。

但欧共体的工作组在今年讨论文本和数据挖掘时产生了分歧。今年2月4日会后，研究人员和图书馆管理员都抱怨说，欧共体小组讨论的只是如何在有文本挖掘许可证的情况下进行数据挖掘，而不是如何豁免文本挖掘版权。“只会提高采用这种技术的壁垒，并使得计算机基础研究在很多情况下无法进行。”他们在2月26日给克罗斯和其他三位欧盟专员的信中这样写道，但这封信至今尚未得到答复。

英国巴斯大学的罗斯莫斯，目前正在使用文本挖掘从文献中提取进化关联的树状图。他说，3月8日的第二次会议，欧盟也很难保证会认真考虑文本挖掘的豁免权事宜。欧共体工作组希望在年底能得出一致的结论和观点。

●相关链接●

文本挖掘有时也被称为文字探勘、文本数据挖掘等，大致相当于文字分析，一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生，如模式识别。文本挖掘通常涉及输入文本的处理过程（分析，同时加上一些衍生语言特征以及消除杂音，随后插入到数据库中），产生结构化数据，并最终评价和解释输出。典型的文本挖掘方法包括文本分类，文本聚类，概念/实体挖掘，生产精确分类，观点分析，文档摘要和实体关系模型。 [摘自维基百科]

美国的情况比较明朗，一些律师认为文本挖掘在 “合理使用”的情况下可以被允许进行，能够自由复制一些文字片段。但是，没有人对此了解的很确切，许多研究人员担心这是对法律的灰色地带的边缘性挑战。

一些出版商认为，无限制的文本挖掘会使他们的服务器使用过度，何时及如何下载文章还需再着重研究一下。 CrossRef网站是个非盈利组织，它拥有数以千计的学术出版物，目前他们正在开发一个系统，在这个系统里，研究人员可以点击出版商网站的按钮，以示同意标准文本挖掘条款。CrossRef的杰夫比德尔表示该系统有望在今年年底推出。

马萨诸塞州丹弗斯的版权结算中心（CCC）的主要工作就是与出版商协商版权问题，目前它正努力为用户寻求更多利益。版权结算中心的研究人员罗伊·考夫曼说，版权结算中心作为中介，会收集出版商的条款内容，并将其存储在网站上。目前他们正与六个出版商（包括《自然》出版集团）及急于挖掘文献的药物化学品公司进行合作。

希瑟布鲁尔达勒姆来自北卡罗莱纳州的国家进化综合中心，专门研究搜索人员如何使用数据，他认为，只允许像谷歌这样的大企业挖掘文本内容是不公平的——然而迄今为止，科学家们都没有权限使用数据。“谷歌知道它在做什么，但我们其余的人却没有信用等级去挖掘数据，这说法是站不住脚的，”她在博客中写道，“我肯定不希望是这样的结局。”