智能即算法：终极算法与机器学习

2017-06-07 00:47林永青

金融博览 2017年6期

林永青

惊恐的算法登场

最早让人们最深切地体会到计算机算法威力的，不是围棋机器人，而是华尔街的股票分析算法（软件）。

2010年5月6日早上，全球股市受希腊动荡局势的拖累而走低。很多人担心希腊债务违约在所难免，并且会引发全球经济萧条。纽约时间上午10点左右，美国股市大跌2.5%，损失惨重。

事情很快由糟糕透顶发展成令人费解。当日美国东部时间下午2点42分，股市剧烈波动后进入自由落体状态。2点47分，仅仅300秒之后，道琼斯指数下跌达998.5点，为其有史以来最大单日跌幅。全球最受重视的股票指数道琼斯工业平均指数的走势看起来就像是被人恶搞了一样。近1万亿美元的财富就这样蒸发了。

某些股票每股购入价狂跌至1美分，但却在数秒之内又反弹回30美元或40美元。美股陷入剧烈动荡，无人知晓原因，不管问题出在哪里，总之不能全部归结到某个有严重错误的交易单或是某个流氓交易员。动荡来得如此迅疾，有些交易员或许就在上个厕所或喝杯咖啡的时间里，就完全错过了千点大跌又急速反弹的一幕。

闪电崩盘的确切成因，仍然众说纷纭。有人把矛头指向堪萨斯城的一位财富投资经理人，他的算法过快出售掉价值40亿美元的股指期货，导致其他算法跟风。有人指责一伙不明交易商合谋共同利用算法打压股价。有人认为这不过是老式的恐慌造成的，跟1929年的大崩盘不无相似之处。然而可以肯定的是，如果不是因为不受人类管束的算法占据了市场，不到1秒内独立下单并完成交易，股价波动幅度不可能如此之大，波动速度也不可能如此之快。但这样的算法确实统治了市场。

算法通常都是按设定好的方式运行，有的安静地交易，有的根据供需关系给商品定价。但算法一旦处于失控的状态，我们便会弄不清谁或是什么在幕后操纵。算法在不知不觉中悄悄侵入我们的世界，直到闪电崩盘使我们惊醒！这让算法上了晚间新闻，它也很快地出现在关于约会、购物、娱乐和就医等任何你可以想得到的领域的故事中。闪电崩盘只是预示了一个更大的趋势：算法掌控一切。

理解算法

佩德罗·多明戈斯（Pedro Domingos）是美国华盛顿大学计算机科学教授，加州大学欧文分校信息與计算机科学博士，在机器学习与数据挖掘方面著有200多部专业著作和数百篇论文。他在自己的《终极算法》一书中开篇就直截了当地提出来“所有知识都可以通过一个单一的终极算法来获得”。

人工智能的起源时期，最初的主流研究方向是“神经网络”。那时，人们认为通过研究人类大脑的“仿生学”方法，可以找到机器智能的出路，结果却是机器学习的另一方向——算法——后来居上。从今天人工智能各个研究方向的发展来看，都离不开算法，将智能定义为算法，大致上是准确的。

如果终极算法存在

算法（Algorithm）原指对解题方案准确而完整的描述，是一系列解决问题的清晰指令，算法代表着用系统的方法描述解决问题的策略机制。也就是说，能够通过对一定规范的输入，在有限时间内获得所要求的输出。如果一个算法有缺陷，或不适合于某个问题，执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。

对全部算法的理解过于技术化，不容易理解，但我们可以举两个重要的算法思想，以管中窥豹，建立一些认知。

比如，穷举法，或称为暴力破解法。基本思路是，对要解决的问题，列举出所有可能的情况，逐个判断有哪些是符合问题所要求的条件，从而得到问题的解。它常用于密码破译，即对密码逐个推算直到找出真正的密码为止。例如一个四位并且全部由数字组成的密码，其可能有的组合会有上万种，由此，试过相应的次数就能找到正确的密码。理论上利用这种方法可以破解任何一种密码，问题只在于如何缩短试错时间。因此有人运用计算机来增加效率，有人辅以字典来缩小密码组合的范围。

再比如递归法。程序调用自身的编程技巧称为递归（recursion）。它通常把一个大型复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解，递归策略只需少量的程序就可描述出解题过程所需要的多次重复计算，大大地减少了程序的代码量。递归的能力在于用有限的语句来定义对象的无限集合。递归法可以类比索罗斯对金融市场的反身性研究，即股市参与者对每一次股票交易的定价和心理预期，又“反身性”地影响了股票的价格，即人类观察者自身对于观察对象有着实质的影响。可以说，机器算法自身，也是个“生命体”。因为时间维度的存在，当一个算法变量要开始计算反馈时，变量本身已经开始变化了。

今天，不同于传统算法，悄然主导我们生活的是“能够学习的机器”，它们通过学习人们琐碎的数据，来执行任务；它们甚至在人们还没提出要求时，就能“预知”到我们想做的事。《终极算法》中说：“如果这种终极算法存在，那么它将可以通过数据获得世界上过去、现在、未来的所有知识。这个算法的发明将会是科学史最伟大的进步之一。”

机器学习，自我建构的技术

和算法一样，在我们几乎还不知情的时候，机器学习已经就在我们身边了。当我们把查询信息输入搜索引擎，它确定该显示哪些搜索结果（包括显示哪些广告）；当我们打开邮箱时，大部分垃圾邮件已经被屏蔽，因为计算机已经把这些垃圾邮件过滤了；我们登录亚马逊网站购买一本书，或登录网飞（Netflix）公司网站观看视频，机器学习系统会推荐一些我们可能喜欢的产品；脸书（Facebook）利用机器学习决定该向你展示哪些更新，推特（Twitter）也同样会决定显示哪些文章。

机器学习正在重塑科学、技术、商业、政治以及战争。卫星、DNA（脱氧核糖核酸）测序仪以及粒子加速器以前所未有的精细程度探索自然，同时，学习算法将庞大的数据转变成新的科学知识。企业从未像现在这样了解自己的用户。在美国大选中，拥有最佳选举模型的候选人奥巴马最终战胜了对手罗姆尼，获得了竞选胜利。无人驾驶汽车、轮船、飞机分别在陆地、海面、空中进行生产前测试。学习算法通过汇总你过去的购买经历就能确定你的喜好。谷歌的无人驾驶汽车，是因为配有学习算法的汽车能通过观察司机的操作来掌握开车技能。

传统上认为，让计算机完成某件事情的唯一方法（从把两个数相加到驾驶飞机），就是非常详细地记录某个算法并解释其如何运行。但机器学习算法不一样，它是通过从数据中推断，它们自己会弄明白做事方法。掌握的数据越多，它们的工作就越顺利，无需给计算机编程，它们自己给自己编程。

机器学习是“太阳底下的新鲜事”——一种能够构建自我的技术。从远古祖先学会打磨石头开始，人类就一直在设计工具，无论这些工具是手工完成的，还是大批量生产的。算法本身也属于工具，可以用它们来设计其他工具。“计算机毫无用处，”毕加索说，“它们只能给你提供答案。”计算机并没有创造性，它们只能做你让它们做的事。如果你告诉它们要做的事涉及创造力，那么就要用到机器学习。学习算法就像技艺精湛的工匠，它生产的每个产品都不一样，而且专门根据顾客的需要精细定制。但是不像把石头变成砖、把金子变成珠宝，学习算法是把数据变成算法。它们掌握的数据越多，算法也就越精准。

现代人希望让世界来适应自己，而不是改变自己来适应世界。机器学习是100万年传奇中最新的篇章。其核心就是预测：预测我们想要什么，预测我们行为的结果，预测如何能实现我们的目标，预测世界将如何改变。从前，我们依赖巫医和占卜师进行预测，但他们太不可靠；科学的预测就更值得信赖，但也仅限于我们能系统观察和易于模仿的事物，大数据和机器学习却大大超出这个范围。我们可通过独立的思维来预测一些常见的事情，包括接球和与人对话，但有些事情，即便我们很努力，也无法预测。可预测与难以预测之间的巨大鸿沟，也许可以交给机器学习来填补。（作者为价值中国创始人、价值家创始人）