向鸿瑾
(上海外国语大学,上海 201620)
数据挖掘是处理大型数据集以认知其模式并且建立解决问题和数据分析的过程。数据挖掘工具让企业能够预测未来趋势,大量提高生产效率;让医院更高效地医治病患;让科研院所更富有成效地研究实验过程及其相关变量。总的说来,数据挖掘能帮助人类更好地认识事物,分析事物。从源头上来说,数据挖掘有着严谨的科学分析方法。数据挖掘脱胎于统计学,统计学则脱胎于数学。大部分统计学习算法有着严谨的数学证明,是现存的最优的最科学的分析问题的方法。
数据挖掘有着一些成熟的分析方法和算法,包括在金融业大放异彩的序列分析(Time Series Analysis)、经典的分类和聚类算法等。这些分析方法实际上都是在寻找事件的模式和参数。一个序列是指一个有序的事件列表,这是一种常见的数据结构。分类算法是在基于数据库的其他特征向量中寻找数据的模式,从而得到可能的数据的内部结构。而聚类算法则与分类算法类似,能够从特征中找到未知的关联,通过分析不同样本的相关性从而将它们分类并标号。
数据挖掘的目的具体来说有以下几点:把握趋势和模式;预测;求最优解。在这三个目的中,其过程也都需要对大量的、杂乱无章的数据进行以下三个步骤:数据预处理;数据挖掘;后处理。首先分析数据预处理。之所以有这样一个步骤,是因为通常的数据挖掘需要涉及相对较大的数据量,只有从大量的数据中,才能看到整个未来发展趋势。这些数据的来源不一导致格式不同,有的数据也许还存在一些缺失值或者无效值。如果不经处理,直接将这些‘脏’数据放到模型中去跑,就非常容易导致模型计算的失败或可用性很差。所以数据预处理是数据挖掘过程中不可或缺的一步。预处理这一步通常占用了数据挖掘过程中的大部分时间,但的确值得这样去做。
数据挖掘和后处理相对来说容易理解。完成了数据的预处理,下一步将通常进行特征的构造,然后将其放到特定的模型中去计算,利用某种标准去评判不同模型或组合模型的表现,最后确定一个最合适的模型用于后处理。后处理的过程是在已经发现了那个想要找到的模式后,去应用它或者用合适的方式将其表示出来。
第一次工业革命中,蒸汽机的出现让家庭小作坊的织女们大量“下岗”失业,但是她们很快地转入其他行业,包括但不限于秘书、财务、修女等。第二次工业革命中,电灯的出现让给各个家庭运煤的工人也很快地失去了工作,但他们也能转业去从事电话接线员等工作。第三次工业革命,电子计算机和互联网信息化时代的到来,让传统的邮差的工作量大量减少,但是催生了新的低端工种,例如前端程序员等。从纵向来看,历史的经验可以让我们得出一个暂时无法反驳的结论:每次的技术革命虽然会造成旧事物、旧工种的灭亡,但是也产生了大量的、新的工作需求。事物的相互联系包含着事物的相互作用,而相互作用必然导致事物的运动、变化和发展。而发展是前进上升的运动,实质是新事物的产生和旧事物的灭亡。新事物是指合乎历史前进方向、具有远大前途的东西,新事物是不可战胜的。
旧事物被打败的原因除了旧事物不再适合新社会的要求以外,还有沉溺于旧事物的思想。这也加速了旧事物被淘汰的进程。二十年前,柯达公司可谓是如日中天,销售的胶卷不仅仅能够绕地球三圈,甚至可以连接太阳与地球。但是,正是这种疯狂式的成功让柯达公司一步一步走向了坟墓。来自日本的量产的单反数码相机曾让柯达公司不屑一顾:他们真的以为自己已经大到不能倒的地步,并对单反相机没有一点点投资和研发意向,固执地将所有的经费投在了传统的光学敏感材料上了。事实证明,柯达曾经不愿意接受的技术已经成了现代摄影技术的主流,甚至成功地击败了柯达公司:2013年5月,伊士曼-柯达公司正式提交退出破产保护的计划,宣告了一代商业神话的灭亡。
所以,从事传统行业的人们,不能固步自封,认为自己的工作是无可替代的。其实新技术的产生到推广是非常快速的,如果一个人像柯达公司一样拒绝排斥新技术,那么在新的技术影响下,他之前从事的职业将会极快地被取代,也会面临与柯达公司相似的困境:下岗失业。更为现实的是,在新的技术环境下,工作对人们的知识水平和经验要求更高,那么固执的“旧社会”的下岗民工将在新的时代下永远失业。
综上所述,可以看出:从数据量的爆发,到数据挖掘技术的应用,再到人类社会走向未来全新的人工智能时代是一条明晰的发展路径。虽然不像新闻媒体中所说的那么极速地到来,但未来也不会像电影里表现出来的那么恐怖。不可否认的是,人工智能的确会给人类社会带来全新的挑战:短暂的失业潮、数量不小的传统行业的资本亏损等。人们应当有着更为积极的态度去看待数据挖掘的应用和未来的人工智能技术,去学习、拥抱新的技术,掌握更为先进的生产力,为自己的家庭和社会带来更大的价值。