奇用验证码

2021-03-25 20:24徐子沛

风流一代·经典文摘 2021年3期

徐子沛

2002年，卡内基梅隆大学的博士生路易斯发明了我们经熟悉的验证码，即用一排人为扭曲、奇形怪状的字符来判断当下程序的使用者是人还是机器。机器无法自动识别这些变形的字符，验证码可以用来防止互联网上广泛存在的恶意机器注册。

恰恰在这个时候，《纽约时报》正面临着一个令人头疼的任务：他们试图把一百多年的历史报纸全部电子化，当时最可行的方法就是通过扫描进行光学字符识别。但是，因为旧报纸有油墨的痕迹、折叠的印记，并且发黄变色，加上几十年前的字体与现在的也不一样，因此识别率很低。当然，还有一个最笨的方法就是逐字敲打，再人工校对，这样不仅速度慢，效果也差。

这时候，路易斯得知这件事后，他想到一个天才的办法：全世界每天都有几亿个验证码在被校验，他把《纽约时报》的文章切成小片，把它当作验证码发给全世界的人，这些人在使用验证码的时候，不知不觉中就帮助《纽约时报》完成输入和校对了。对于难以识别的字符，系统可以发给多个验证者，当几个人返回的結果一致时，就说明识别的结果是正确的，然后再将其返回系统进行重新整合。

2007年，路易斯成立验证码公司，该公司利用这个办法把《纽约时报》几十年的报纸都电子化。2009年，该公司被谷歌收购。

（陈亮摘自中信出版社《数据之巅》）