全 然
(河南工业大学理学院,郑州450001)
同济大学数学系编的高等数学是国内大部分理工科非数学本科专业采用的经典教材[1],华东师范大学数学科学学院编的数学分析是国内大部分数学本科专业采用的经典教材[2],两套教材都对函数的凸性进行了定义.文献[1]基于区间上任意两点的中点来定义函数的凸性,即所谓中点凸,而文献[2]则是基于任意两点的凸组合来定义函数的凸性.笔者在讲授高等数学[1]时,一直认为两种定义是等价的,但并没有去深究在什么条件下等价,为什么等价.
近来,笔者想探究这两种凸性定义是否等价的愿望愈发强烈,于是对两种凸性的定义进行了认真研究.为了讨论方便,如果没有特别指明,下文所述区间I既可以是闭区间也可以是开区间,区间I0表示去掉区间I的端点后形成的开区间,如果I是开区间,则I0=I.研究发现,詹森(Jensen)最早定义了函数的凸性并对其进行了系统研究[3-8],该定义具体如下.
定义1[3-8]设函数f(x)在区间I上有定义,如果对I上任意两点x1,x2恒有
(1)
则称f(x)在区间I上是J凸的,或者称f(x)在区间I上是J凸函数.
文献[2]中凸性定义是国内外大多数文献所采用的定义[2,5-9],具体如下.
定义2[2]设f(x)在区间I上有定义,如果对I上任意两点x1,x2和任意实数λ∈(0,1)恒有
f(λx1+(1-λ)x2)≤λf(x1)+(1-λ)f(x2),
(2)
则称f(x)在区间I上是凸的,或者称f(x)在区间I上是凸函数.
从表面形式上看,以上两种定义并不一样.而且易知凸函数一定是J凸函数,反之未必成立.通过进一步探究高等数学和数学分析教材[1]、[2]、[10-12]发现:
(i) 文献[1]和[10]的凸性定义类似定义1,利用式(1)进行定义,而文献[2]、[11]和[12]的凸性定义类似定义2,利用式(2)进行定义;
(ii) 文献[1]和[12]要求函数具有连续性,而文献[2]、[10]和[11]则没有连续性的要求.
所以笔者的“今惑”是:
(i) 定义1和定义2这两种凸性定义是否等价,为什么?
(ii) 在什么条件下这两种凸性定义等价?
本文基于笔者自己的“今惑”和相关参考文献,研究梳理这两种凸性定义的“前世”:
(i) 两种凸性定义的早期发展历史;
(ii) 两种凸性定义的性质以及它们等价需要的条件.
自从函数凸性在19世纪末20世纪初被提出并定义之后[3-8],便得到了广泛研究[13-27],时至今日,函数凸性的定义更是达到了十几种之多[16-18],定义1和定义2这两种凸性定义的等价性也是许多文献研究的重要内容.一方面,由于开区间上的凸函数连续,而开区间上的J凸函数不一定连续[5,28],这意味着函数两种凸性定义并不等价.另一方面,易知满足定义1的函数不一定满足定义2,但满足定义2的函数一定满足定义1.这意味着满足定义1的函数即J凸函数更广泛,所需条件更弱.所以主要是在定义1上增加条件,进而讨论证明定义1和定义2这两种凸性定义等价.这些增加的条件大致可以分为四类:第一类,函数具有连续性;第二类,函数具有可微性;第三类,函数具有半连续性,包括上半连续和下半连续;第四类,函数具有有界性.由定义2可以证明凸函数在开区间内连续[2],又由于连续性是许多函数都具有的一个基本性质,所以大多数文献都是直接或间接利用函数的连续性[5-8],[16-21]来讨论证明两种凸性定义的等价性.文献[16]以及[19-21]又进一步基于函数的可微性来讨论证明两种凸性定义的等价性;文献[22-25]是在半连续条件下讨论证明两种凸性定义的等价性;文献[7]、[17-19]则是在有界性条件下讨论证明两种凸性定义的等价性.当然,相当多的文献同时讨论了多种凸性定义的等价性,而且往往是采用循环的方式进行证明,如文献[16-18]和[21]分别讨论了十三种、八种、十七种和四种凸性定义的等价性.
下文将通过研究梳理函数两种凸性定义的前世,即(i)两种凸性定义的早期发展历史;(ii)两种凸性定义的性质以及它们等价需要的条件,以释笔者的今惑,即(i)两种凸性定义是否等价,为什么?(ii)在什么条件下这两种凸性定义等价?
尽管Hölder、Stolz和Hadamard分别于1889年、1893年和1896年(早于詹森)已经研究了函数的凸性[5,8],但大部分学者认为是詹森在1905和1906年首先定义了函数的凸性,即定义1,并对函数凸性进行了系统的研究,詹森还证明了下面的结论1[3-8].
结论1[3-4]若f(x)为区间I上的J凸函数,则对于任意点x1,…,xn∈I以及任意满足λ1+…+λn=1的非负有理数λ1,…,λn,有
(3)
结论1的证明可参见文献[6]和[8].需要指出的是,人们随后将式(3)推广为式(2)来定义函数凸性[26-27],即定义2,又进一步把结论1推广为如下结论.
结论2[6](i) 函数f(x)为区间I上J凸函数的充要条件是式(3)对于任意点x1,…,xn∈I以及任意满足λ1+…+λn=1的非负有理数λ1,…,λn均成立;
(ii)f(x)为I上凸函数的充要条件是式(3)对于任意点x1,…,xn∈I以及满足λ1+…+λn=1的任意非负实数λ1,…,λn均成立.
结论2的证明详见文献[6].需要说明的是,结论2的第一部分是一个充要条件,给出了J凸函数的一个等价命题,而结论1只是J凸函数的一个必要条件,结论2更强;同时,结论2还给出了凸函数的一个等价形式,甚至有学者把这个等价形式作为凸函数的定义[6,16,18].有人将式(3)称为詹森不等式[5-6],也有人将式(1)-(3)均称为詹森不等式[26-27].
下面讨论两种凸性定义的相关性质.
首先讨论凸函数与连续的关系.
结论3(i) 若函数f(x)为区间I上的J凸函数,则其在区间I的内部I0内不一定连续;
(ii) 若函数f(x)为区间I上的凸函数,则其在I0内连续.
需要说明的是,第一,文献[28]构造了一类J凸函数,并证明其在I0内不连续;第二,结论3中第二个结论的证明方法比较多,文献[2]通过一个例题证明了凸函数在I0内任一点处的左、右导数均存在,从而得到函数的连续性,文献[6]中第4页给出了一种基于利普希茨连续的证明方法来证明函数的连续性,其他证明方法这里就不再一一列举;第三,闭区间上的凸函数不一定连续,如
虽然该函数在区间[-1,1]上是凸的,但在该区间上不连续.
下面结论4是由詹森首先给出并证明[3-4],说明J凸函数在比较弱的条件下也具有连续性.
结论4若函数f(x)在开区间I内为J凸函数且有上界,则f(x)在I内连续.
Bernstein和Doetsch于1915年在更弱的条件下,证明了J凸函数的连续性[29],即下面的结论5.
结论5若f(x)在开区间I内为J凸函数且在I内某一点的邻域内有上界,则其在I内连续.
结论5的详细证明可参见文献[6]和[7].结论3~5给出了一定条件下(J)凸函数具有连续性,其实在连续的条件下,两种凸性定义等价,具体见下面结论6和结论7.
结论6[20]若函数f(x)在区间I上连续,则定义1与定义2等价,即两种凸性定义等价.
结论7[19]f(x)在区间I上为凸函数的充要条件是f(x)在I上为J凸函数且在I0内连续.
结论6和结论7的证明分别详见文献[20]和[19],两个结论的实质是J凸函数在增加连续性的条件下和凸函数等价.其实,连续并不是一个很强的条件,包括初等函数在内的许多函数都具有连续性.结论6和结论7表明:
结论8若函数f(x)在区间I上连续,则两种凸性定义等价.
接下来将讨论凸函数与可微的关系.由结论3的第一个结论易知,J凸函数在开区间I内的左导数或右导数可能不存在,这说明J凸函数的可导性可能较差,但凸函数的可导性相对较好,具体见下面的结论9和结论10.
结论9[6,20]设函数f(x)为区间I上的凸函数,则对于∀x∈I0,左右导数f′-(x),f′+(x)都存在,且f′-(x),f′+(x)均为增函数,f′-(x)≤f′+(x),∀x∈I0.
结论10[6]设f(x)为开区间I上的凸函数,集合E为f(x)的不可导点构成的集合,则E是可数的,且f′(x)在IE上连续.
结论9的证明详见文献[6]和[20],结论10的证明详见文献[6].需要说明的是,Stolz在1893年已经证明[8],如果f(x)在区间I上连续且满足式(1),则其在I的任一内点处的左右导数都存在.这是必然的结果.这是因为,若f(x)在区间I上连续且满足式(1),则说明f(x)为区间I上连续的J凸函数,从而由结论7可知f(x)为区间I上的凸函数,进一步由结论9可知f(x)在I0内的左右导数都存在.
在函数可导的条件下,可得到如下判断函数是否为凸函数的两个结论.
结论11[20](i)若f(x)在区间I上可导,则f(x)为I上凸函数的充要条件是f′(x)在I上单调递增;
(ii) 若f(x)在I上二阶可导,则f(x)为I上凸函数的充要条件是f″(x)≥0.
结论12若函数f(x)在区间I上可导,则定义1与定义2等价,即两种凸性定义等价.
结论11的证明详见文献[20].也可以这样理解结论12,如果函数f(x)在区间I上可导,则f(x)在区间I上连续,故由结论8可知,两种凸性定义等价,故结论12正确.
前面讨论了在连续或可微的条件下,两种凸性定义等价,下面结论说明在更弱的半连续条件下两种凸性定义也等价.
结论13[22-24]若函数f(x)是区间I上的上半连续函数,则两种凸性定义等价.
结论14[22-24]若函数f(x)是区间I上的下半连续函数,则两种凸性定义等价.
结论15[22-24]函数f(x)是区间I上凸函数的充要条件是f(x)既是I上的J凸函数又是I上的上半连续函数.
结论13~15的证明详见文献[22-24].正如文献[24]所述,由结论14可知,如果f(x)在区间I下半连续且在I上是J凸函数,则f(x)在I上一定是凸函数,从而由结论15可知f(x)在I上为上半连续函数,所以f(x)是I上的连续函数.因此结论14中的下半连续函数这一等价前提条件可以改为连续函数,二者是一回事.将结论13和14合二为一,即为
结论16若函数f(x)是区间I上的上半连续函数或下半连续函数,则两种凸性定义等价.
最后讨论凸函数与有界的关系,具体见下面的三个结论.
结论17[19]若函数f(x)是区间I上的凸函数,则f(x)在I的任一闭子区间上有界.
结论18[19]函数f(x)是区间I上凸函数的充要条件是f(x)既是I上的J凸函数又在I的任一闭子区间上有上界.
结论19若函数f(x)在区间I的某一子区间上有上界,则两种凸性定义等价.
结论17和18的证明详见文献[19].对于结论19,由前面结论5可知,如果J凸函数f(x)在区间I的某一子区间上有上界,则f(x)在I0内连续,从而由结论7可知f(x)是I上的凸函数,故结论19正确.
本文系统、全面、深入总结了两种凸性定义的早期发展历史及已有的一些研究成果;期望帮助对两种凸性定义等价性了解不深入的高校教师及相关人员更好的了解两种凸性定义的早期发展历史;把握凸函数的连续性、可微性、半连续性和有界性以及在连续、可微、半连续和有界等任一条件下两种凸性定义等价性.
致谢作者非常感谢相关参考文献给予本文的启示以及审稿专家提出的宝贵意见.