漂流
向量的名字中,就包含了方向的天然基因.向量概念的出现,颠覆了我们对于数学的许多固有的认识.
向量又称为矢量,最初被应用于物理学,向量是既有方向又有大小的量,向量的大小或方向不同会产生不同的量.
“向量”一词来自力学、解析几何中的有向线段.最先使用有向线段表示向量的是英国科学家牛顿.
大约公元前350年,古希腊著名学者亚里士多德就知道了力可以表示成向量,两个力的组合作用可用平行四边形法则来解决.
一般日常生活中使用的向量是一种带几何性质的量,除零向量外,总可以画出箭头表示方向.在进入大学后,我们还将在高等数学中学习到更广泛的向量.如把所有实系数多项式的全体看成一个多项式空间,这里的多项式都可看成一个向量,在这种情况下,要找出起点和终点甚至画出箭头表示方向是办不到的,这种空间中的向量比几何中的向量要广泛得多,可以是任意数学对象或物理对象.
向量既是几何的研究对象,又是代数的研究对象,是沟通代数、几何的桥梁,是重要的数学模型,其广泛的应用也就顺理成章了.
物理中的矢量是向量的原型,向量在物理中有广泛应用是不言而喻的.向量与物理学中的力学、运动学等有着天然的联系.很多物理量如力、速度、位移以及电场强度、磁感应强度等都是向量.将向量这一工具应用到物理中,可以使物理题解答更简捷、更清晰.
向量知识不仅是解决物理题的有利工具,而且在机器人设计与操控、卫星定位、飞船设计等现代技术中也有着广泛的应用,大显身手.
在计算机图像处理技术中,存储图像有一种向量格式.向量图形(也称“矢量图”)是以坐标数值去表示一些控制点,而点与点之间用线连起来便成图形,所以也称外框图形.因为是用坐标及外框方式去记录图形,所以图形可以随意放大及缩小,其效果都是一样的,其突出的优点是所需的存储空间相对于图像小了很多.
在现代生活中遇到解决不了的问题时,我们常常会“百度”一下,其实这中间就有向量的影子.比如目前应用最广泛的百度和谷歌搜索,通常使用信息檢索技术中的布尔检索.
布尔模型已经可以解决一个很重要的问题,就是找到和用户需求相关的文档(其中还需要很多技术处理等).但是这样找到的文档会有很多,数以万计,这远远不是用户所要的.用户也不会去从几万个文档中挑选自己要找的.我们需要对结果进行排序,把最能满足用户需求的文档放在最上面显示给用户,就像谷歌和百度做的一样.
细心的同学会发现,其实信息检索是一个循序渐进的剪枝和筛选过程,最后留下的就是用户想要的.
我们需要一种评分机制来进行排序,通过得分的高低排出TOP N的文档返回给用户.如何确定这种评分的标准呢?向量空间模型(VSM)方法就是其中重要的一种.为了清楚说明问题,我们首先介绍2个概念:TF和IDF.
TF即Term Frequency,表示一个Term t出现在Document d中的次数,这是文档中一个很重要的概念.出现次数更多意味着重要程度越高,当然需要注意的是,相关度的提高并不是和次数的提高成同比的.因此通常对TF做如下的处理:
Wl=log10(TF十1),这样做就是要弱化次数对于相关度的影响.数学模型的思想和方法体现得淋漓尽致.
DF即Document Frequency,表示一个Term在整个文档集中出现的频率,与TF相反,一个Term的重要程度是随着它在语料库中出现的频率成反比的,比如and,or等词在几乎所有文档中都出现,那么这些词的意义就很弱,而一些专业词汇只在几篇文档中出现过,显然意义更加重要.IDF就是DF取倒数,这里只是为了表示方便.
同样,为了弱化频率的效果,我们也做如下处理
有了上面的TF和IDF作为权重,我们可以很简单地计算所有词的权重,然后用一个n维(平面向量是二维向量)的向量来表示一个文档,同样用n维的向量来表示Query,Query中如果没有对应的Term,该维权重为O.
我们已经知道,无论是在平面还是在空间中,如果两个向量的夹角越小,说明两个向量越相似,反之两个向量越无关,我们可以很简单地得到向量之间的相似度.空间向量模型可以说是信息检索中相当常见并且非常重要的模型之一.理解起来非常简单直观,并且效果也是很不错的.
同样,向量中也有着丰富的文化内涵,寓言故事《南辕北辙》告诉我们,很多时候,方向是否正确对事情的结果至关重要,向量的方向就像我们的人生目标或理想,向量的模就是我们为了达到目标而付出努力的多少,只有具有了向量的这两个条件我们才能实现自己的理想!
最后让我们一起来欣赏一首关于向量的数学小诗:
我的向量
给你一个方向,你就是我的向量.
给你一个坐标系,你就在我心中飞翔.
给你一组基底,带着我,扬帆启航.
繁复的几何关系,变成纯代数的情殇.
优美的动态结构,没有人情冷暖世态炎凉.
哪怕山高路远,哪怕风雨苍茫,不管起点在哪,你始终在水一方.
啊,我的向量,你是一股无穷的力量,溶进了我的身体,在我的心中,静静地流淌!