非凸优化基石:Lipschitz Condition

非凸优化基石:Lipschitz Condition

未名未名
今天介绍下非凸优化里面,特别经常出现的一个假设条件 Lipschitz Condition.

之所以需要写一下这个,一是因为这个Conditon 确实特别重要,二是我以后写的东西需要利用到这个Condtion推岛出的一些Thereom, 所以需要先铺垫一些基础知识。

如果有啥没说对的地方,欢迎批评指。能力有限,也就拼拼凑凑一些简单的东西了,大牛见笑了。

本章分三部分:

Part I : Definition of Lipschitz Continuous

Part II: 直观解释

Prat III: 证明

%------------------------正文开始----------------------------------------------------------

Part I : Definition of Lipschitz Continuous

今天就分享一个定义: Lipschitz continuous

在绝大多数的非凸优化的论文里,一般不出现Lipschitz continuous, 一般出现的都是 Lipschitz continuous gradient 或者 Lipschitz continuous Hessian, 那他们是什么意思呢?

其实Lipschitz continuous gradient 和 Lipschitz continuous Hessian 都是从Lipschitz continuous 延伸出来的概念。


如果函数f导函数f^{\prime}是Lipschitz continuous,那么我们说函数f符合Lipschitz continuous gradient ;如果函数fHessienf^{\prime\prime}是Lipschitz continuous,那么我们说函数f符合Lipschitz continuous Hessian.

所以 Lipschitz continuous gradient意味着:

而 Lipschitz continuous Hessian意味着:

你可以一直往上构造,构造出更高阶的 Lipschitz continuous condition.


Part II: 直观解释

先上结论:

Lipschitz continuous: 函数被一次函数上下夹逼

Lipschitz continuous gradient :函数被二次函数上下夹逼

Lipschitz continuous Hessian :函数被三次函数上下夹逼

在我看来,Lipschitz continuous 用在函数值上是为了不让函数值变化的太快;用在导函数上,是为了不让导函数变化的太快;用在Hessian上,是为了让Hessian不变化的太快。但他们都导致了一个很有意思的结果:这个Lipschitz continuous不管用在什么上,都使的函数被多项式上下夹逼,一方面便于我们处理,另一方面至少我们能控制一下函数的包络信息。


如图所示(示意图,可能不是很严谨,见谅):


解释:

(1)首先我们看看如果函数f符合Lipschitz continuous会怎么样呢?我们看Defintion 1, 直接把绝对值去掉,就可以得到下面两个不等式。


说明如果函数是是Lipschitz continuous,固定x,对于这个关于y的函数,那么这个函数的上方和下方是被一个一次函数Bounded!

为了对Lipschitz continuous gradient 和 Lipschitz continuous Hessian 做出合理的直观解释,我得先抛出两个特别重要的Theorem(证明在Part III 有兴趣的人看看就好)

(2)如果函数是Lipschitz continuous gradient,那么下面这个Theorem 1 成立


去掉绝对值,你会得到下面两个不等式


说明如果函数是是Lipschitz continuous gradient,固定x,对于这个关于y的函数,那么这个函数的上方和下方是被一个二次函数Bounded!


(3) 如果函数是Lipschitz continuous Hessian,那么下面这个Theorem 2 成立

去掉绝对值,你会得到下面两个不等式


说明如果函数是是Lipschitz continuous Hessian,固定x,对于这个关于y的函数那么这个函数的上方和下方是被一个三次函数Bounded!

在回头看看我贴的图,是不是顺眼多了~~

%--------------------------------------------止步于此即可------------------------------------------------

如果能记住Lipschitz condition ,Theorem 1 和 Theorem 2 的公式,再在直观上有一些些了解,那么花这点时间看这文章就值了,如果没记住,那么请返回去背一下,毕竟记住点什么才算是真的学到了点什么。

如果认为看Proof是最好的理解和记忆方式,请勇敢的翻下去~~

%-----------------------------------------------------------------------------------------------------------------------

Part III: Proof of Theorem 1 and Theorem 2

(1) Proof of Theorem 1 (证明来自Nesterov <Introductory Lectures on Convex Programming>截图过来的


评论两点:

1> 等式(1)中第三项,梯度向量与向量x-y内积之后是一个数,是一个关于\tau的一元函数,整个积分是一个一元积分,不要被符号吓到了

2> 不等式(2)用了Cauthy-Schwar inequality: \langle x,y \rangle \leqslant \|x\|\|y\|

(2) Proof of Theorem 2 (证明来自Nesterov <Cubic Regularization of Newton and its Global Performance>


评论两点:

1> 等式(2)中,向量与向量内积之后是一个数,是一个关于\lambda的一元函数,整个积分是一个一元积分,不要被符号吓到了。

2>不等式(3)是用Cauthy-Schwar inequality: \langle x,y \rangle \leqslant \|x\|\|y\|之后,再套用不等式(1)得到的结果。

%-------------------------------------------------------------------------------------------------------

谢谢你看到最后,但愿这些对你有帮助,有启发的话,点个赞呗,只收藏不点赞鼓励一下,人家都没有写下去的热情了。

以后想一起学习凸优化,非凸优化的可以关注我和专栏啦,我会写一些我看到的有意思的观点和思路的,哈哈!

  • 欢迎随意转载分享,Idea worth spreading!
「真诚赞赏,手留余香」
3 人赞赏
Sean Huang
王广辉
huapohen
文章被以下专栏收录
44 条评论