鲁迅的文章和人工智能会有联系吗?在中国科学院院士、清华大学教授张钹看来,答案是肯定的。
在鲁迅的一篇文章中,当孩子满月的时候,凡是说孩子将来会发财、做官的,都得到了主人的感谢或恭维,而唯一说出事实——“孩子将来是要死的”的人遭到了一顿合力的痛打。
张钹开玩笑说,在当下人工智能大跃进的局面下,既要说实话,又不想挨一顿合力的痛打,是需要勇气的。尽管如此,“我还是既要把人工智能的优点和成果说够,也要把它存在的问题说透。”
在10月20-22日于山西太原举行的2016中国计算机大会(CNCC2016)上,和张钹有同样勇气的还有其他一些人工智能领域的“大咖”。他们将问题的核心,都指向了人工智能在后深度学习时代的走向。
“弯道超车”还是又一个日本“五代机”
作为我国计算机领域目前规模最大、级别最高的学术会议,创建于2003年、由中国计算机学会(CCF)主办的中国计算机大会一向是业内人士畅所欲言的舞台。虽然今年CNCC2016的主题是“计算改变未来”,但人工智能却成了事实上的焦点。
“今年不管开什么会、谁组织、在哪里开,只要和人工智能挂上边,都很火爆。”中国科学院副院长、中国科学院院士谭铁牛对人工智能当下的热度深有感触。不过,作为人工智能专家,他深刻地意识到,“与其说人工智能火,不如说是深度学习火。”
从技术上来看,深度学习就是“很多层”的神经网络。而神经网络实质上是多层函数嵌套形成的数学模型。事实上,在深度学习出现之前,人工智能已经经历了两次热潮。在此期间,日本于1981年提出第五代计算机研究计划,并为此投资了540亿日元。当时,人工智能研究的先驱者之一爱德华·费根鲍姆认为,这项计划即使部分实现,也将产生巨大经济利益,使日本占有市场,并夺得统治地位。美国如不自强,事态将极为严重,在超工业化社会中只能处于农业大国的地位。然而,最终这一计划还是以失败告终。这也意味着人工智能的流派之一符号主义方法进入了瓶颈期。
而今,随着深度学习的出现,人工智能又迎来了“春天”。这是一个“弯道超车”的机会还是又一个日本的“五代机”?张钹认为,“这两种可能都存在,因为科学发现和技术创新总是通过默默无闻的劳作和坚持不懈的努力取得的,只有这样才有可能成功。”
在张钹看来,与30年前相比,现在的人工智能有两点不同,一是大数据,二是概率统计方法的引入。正是这两个因素催生了当下的深度学习大潮。
然而,深度学习所解决的问题却有一定的范围限制,即在一定的应用场景里,在给定的数据库下,有了可利用的大数据,计算机的感知信息处理程度才有可能达到人类的水平。正因为它的局限性,“从狭义的人工智能走向通用人工智能,就成为后深度学习时代所要致力的问题。”张钹说。
不会“一统江湖、千秋万载”
“从本质上说,(人工智能)第二次和第三次浪潮在方法论上并没有本质区别,都属于连接主义。差别在于深度学习的成功。这里既有硬件的进步,也有卷积神经网络模型与参数训练技巧的进步。”中国工程院院士、北京大学教授高文认为。但他同时表示,连接主义(神经网络、深度学习)虽然大行其道,但如何解决小数据学习和创造性思维仍然挑战巨大。
在南京大学教授、美国计算机协会(ACM)杰出科学家周志华看来,发展至今天,作为人工智能领域一个重要的分支,“机器学习”已经成为一个广袤的学科领域,而“深度学习”仅是机器学习中的一个小分支。
在机器学习出现之前,人工智能的研究者们意识到,要想提升人工智能水平,仅有逻辑推理能力是不够的,而要总结出知识再“教”给系统,也同样困难。到了20世纪90年代中后期,人类发现自己淹没在了数据的汪洋中,机器学习正是为了满足人们对自动数据分析技术的需求应运而生的。而云计算、大数据时代的到来,计算能力的大幅提升,使得深度学习模型在计算机视觉、自然语言处理、语音识别等众多领域都取得了较大的成功。
但是,深度学习是否会“一统江湖、千秋万载”呢?周志华认为,深度学习最重要的作用是“表示学习”,即能自动学习和表达特征。当数据的“初始表示”(如图像的“像素”)与解决任务所需的“合适表示”(如描述物体的特征)相距甚远的时候,就是深度学习应用的领域。然而,很多学习任务,数据的“初始表示”与“合适表示”并没有那么远,因此深度学习不会“一统江湖”,其他一些机器学习技术也有自己的“用武之地”。未来深度学习可能有“冬天”,因为它仅是机器学习中的一种技术,更“潮”的技术总会出现。而机器学习不会有“冬天”,除非我们不再需要分析数据。
高文最近和美国国家科学基金会(NSF)接触发现,美国现在对于深度学习有很大的争议。虽然在机器学习领域,NSF仍然支持深度学习的基础理论研究,但认为在应用领域(如计算机视觉、语音识别、计算语言学等)使用深度学习解决实际问题已经不算创新,此类项目基本上都会被“杀掉”。“这给了我们一个信号,也许几年之后深度学习真的会进入沉寂期。”
未来走向
张钹认为,在后深度学习时代,人工智能主要面临三大挑战,一是概率统计方法带来的困难,即它只能找出重复出现的特征,发现数据间统计的关联性,却不能发现本质特征,找到因果关系。其次是生数据带来的困难,实际上,网络数据中只有34%是有用的,66%则是虚假、无用的,这会严重影响识别的效果。三是不能举一反三,进行领域迁移。而要想实现突破,人工智能发展除了需要知识驱动与数据驱动结合从而“双轮驱动”外,更加要依靠学科交叉,特别是数学、认知科学、心理学、神经科学和语言学等。
从深度学习的发展历史来看,深度学习是相对最容易利用新增计算能力的机器学习方法。因此,周志华预测,未来的主流技术未必是深度学习,但应该是能有效利用GPU等计算设备的方法。
此外,随着人工智能技术取得巨大发展,将越来越多地面临“高风险应用”,因此必须有“鲁棒的人工智能”。对此,周志华的理解是,“好的时候”要好,“坏的时候”也不能太坏。而开放环境下的机器学习研究,是通向“鲁棒人工智能”途径上的关键环节之一。
谈及机器学习的形态,周志华认为,模型和规约相结合的学件的出现,将会改变机器学习目前算法加数据的现状,从而突破机器学习的一些局限,如需要大量训练样本,难以适应环境变化,模型不透明等。今后,当用户想要应用一个模型的時候,他可以先到“学件”市场找一找有无合适的,或者选择一个现成的模型加以修改后使用。而“学件”的诞生,很可能会催生出一个新的类似软件产业的新产业。
来源:科学网endprint