徐子沛
2002年,卡内基梅隆大学的博士生路易斯发明了我们经熟悉的验证码,即用一排人为扭曲、奇形怪状的字符来判断当下程序的使用者是人还是机器。机器无法自动识别这些变形的字符,验证码可以用来防止互联网上广泛存在的恶意机器注册。
恰恰在这个时候,《纽约时报》 正面临着一个令人头疼的任务:他们试图把一百多年的历史报纸全部电子化,当时最可行的方法就是通过扫描进行光学字符识别。但是,因为旧报纸有油墨的痕迹、折叠的印记,并且发黄变色,加上几十年前的字体与现在的也不一样,因此识别率很低。当然,还有一个最笨的方法就是逐字敲打,再人工校对,这样不仅速度慢,效果也差。
这时候,路易斯得知这件事后,他想到一个天才的办法:全世界每天都有几亿个验证码在被校验,他把《纽约时报》的文章切成小片,把它当作验证码发给全世界的人,这些人在使用验证码的时候,不知不觉中就帮助《纽约时报》完成输入和校对了。对于难以识别的字符,系统可以发给多个验证者,当几个人返回的結果一致时,就说明识别的结果是正确的,然后再将其返回系统进行重新整合。
2007年,路易斯成立验证码公司,该公司利用这个办法把《纽约时报》几十年的报纸都电子化。2009年,该公司被谷歌收购。
(陈亮摘自中信出版社《数据之巅》)