thunder_sword's blog thunder_sword's blog
来看漫画丫~
首页
分类
标签
归档
GitHub

thunder-sword

网安界的小菜鸡
来看漫画丫~
首页
分类
标签
归档
GitHub
  • 数学知识回顾

  • 无约束优化问题

    • 集合约束和无约束优化问题的基础知识
    • 一维搜索方法
    • 梯度方法
      • 1.回顾水平集
      • 1.命题8.1(相邻向量垂直)
      • 2.命题8.2(函数值单调递减)
      • 1-1.引理8.1
      • 1-2.定理8.1(x必收敛至极小点)
      • 2-1.引理8.2
      • 2-2.定理8.2(最速任意均收敛)
      • 3.定理8.3
      • 4.定理8.4
      • 5.定理8.5
      • 6.引理8.3
      • 7.定理8.6
    • 牛顿法
    • 求解线性方程组
  • 线性规划

  • 最优化导论
  • 无约束优化问题
thunder-sword
2021-06-23

梯度方法

# 0x1.梯度方法

# 1.回顾水平集

水平集概念:

$𝐿_𝑐={𝒙:𝑓(𝒙)=𝑐,𝒙∈ℝ^𝑛}$

如下图所示元素:

image-20210518113441575

image-20210518113643335

𝐿~𝑐~中点𝒙处的梯度𝛻𝑓(𝒙)与𝐿~𝑐~中过𝒙的曲线在𝒙处的切线正交。

梯度方向𝛻𝑓(𝑥)就是==函数𝑓在𝒙处增加最快的方向==。

$\frac{𝜕𝑓}{𝜕𝑑} (𝑥)=<𝛻𝑓(𝑥),𝑑>$

基于梯度方法的迭代搜索公式:

$𝑥^{(𝑘+1)}=𝑥^{(𝑘)}−𝑎_𝑘 𝛻𝑓(𝑥^{(𝑘)})$

# 0x2.最速下降法

最速下降法是==梯度方法的一种具体体现==,其理念为再每次迭代中选择合适的步长a~k~,使得目标函数值能够得到最大程度的减小。而普通的梯度方法是步长固定的或者不确定的。

迭代公式:

$𝑥^{(𝑘+1)}=𝑥^{(𝑘)}−𝑎_𝑘 𝛻𝑓(𝑥^{(𝑘)})$

$𝑎_𝑘={arg\ min\atop {𝑎≥0}⁡}𝑓(𝑥^{(𝑘)}−𝑎𝛻𝑓(𝑥^{(𝑘)} ))$

解释:

x代表一个点,即(0,0,0)等坐标源点到x的向量。

每次都会以上一个下降向量为基准,正交得到下一次的下降向量,并尝试得到可以最大减小函数值的步长,最后形成“锯齿状”的搜索路径。

终止条件:

image-20210520083052511

例子:

image-20210520083105844image-20210520083152594image-20210520083211489image-20210520083251719

# 1.命题8.1(相邻向量垂直)

利用最速下降法搜索函数𝑓:ℝ^𝑛^→ℝ的极小点,迭代过程产生的序列为{𝑥^(𝑘)^}~𝑘=0~^∞^ 。那么𝑥^(𝑘+1)^−𝑥^(𝑘)^与𝑥^(𝑘+2)^−𝑥^(𝑘+1)^正交对于所有的𝑘≥0都成立。

即:每次迭代寻找极小值的方向向量都是依次正交的。

证明:

image-20210520082709026

说明:上述$φ_k(a_k)=𝑓(𝑥^{(𝑘)}−𝑎_k𝛻𝑓(𝑥^{(𝑘)} ))$

# 2.命题8.2(函数值单调递减)

利用最速下降法搜索函数𝑓:ℝ^𝑛^→ℝ的极小点,迭代过程产生的序列为{𝑥^(𝑘)^}~𝑘=0~^∞^ 。如果𝛻𝑓(𝑥^(𝑘)^)≠0,那么𝑓(𝑥^(𝑘+1)^)<𝑓(𝑥^(𝑘)^)

即:每次迭代寻找极小值后得到的函数值都是小于上一个点函数值,即搜索序列单调递减。

证明:

image-20210520084252997

# 0x3.梯度方法性质分析

目标函数设定为二次型函数 $$ \begin{align*} 𝑉(𝒙)&=𝑓(𝒙)+\frac12𝒙^{∗⊺} 𝑄𝒙^∗ \ &=\frac12(𝒙−𝒙^∗)^⊺ 𝑄(𝒙−𝒙^∗) \end{align*} $$ 其中𝑄是对称正定矩阵。

# 1-1.引理8.1

image-20210525110321441

# 1-2.定理8.1(x必收敛至极小点)

定理8.1

{𝒙^(𝑘)^}表示梯度方法产生迭代点序列, 𝒙^(𝑘+1)^=𝒙^(𝑘)^−𝑎~𝑘~ 𝒈^(𝑘)^。𝛾~𝑘~按照引理8.1里的方式定义,且假定对于所有𝑘, 𝛾~𝑘~>0。那么当且仅当 $$ ∑_{𝑘=0}^\infty𝛾_𝑘=\infty $$ 时, {𝒙^(𝑘)^}在任意初始值𝒙^(0)^下都收敛到极小点𝒙^∗^。

image-20210525110340382

# 2-1.引理8.2

image-20210525110358206

# 2-2.定理8.2(最速任意均收敛)

对于最速下降法,对于任意的初始点𝑥^(0)^,都有𝑥^(𝑘)^→𝑥^∗^。

# 3.定理8.3

对于步长固定梯度法,当且仅当 $$ 0<𝑎<\frac2{𝜆_{𝑚𝑎𝑥} (𝑄)} $$ 时, 𝑥^(𝑘)^→𝑥^∗^。

# 4.定理8.4

利用最速下降法求解二次型函数的极小点,在任意第𝑘次迭代,都有 $$ 𝑉(𝑥^{(𝑘+1)})≤\frac{𝜆_{𝑚𝑎𝑥} (𝑄)−𝜆_{𝑚𝑖𝑛} (𝑄)}{𝜆_{𝑚𝑎𝑥} (𝑄) } 𝑉(𝑥^{(𝑘)} ) $$ $𝑟=\frac{𝜆_{𝑚𝑎𝑥} (𝑄)}{𝜆_{𝑚𝑖𝑛} (𝑄) }=\big||𝑄|\big|||𝑄^{−1} ||$称为矩阵𝑄的条件数。 $$ 𝑉(𝑥^{(𝑘+1)} )≤(1−\frac{1}{𝑟})𝑉(𝑥^{(𝑘)} ) $$ 因子(1−1/𝑟)称为==收敛率==。

# 5.定理8.5

已知序列{𝑥^(𝑘)^}收敛到𝑥^∗^,如果

​ ‖𝒙^(𝑘+1)^−𝒙^∗^ ‖=𝑂(‖𝒙^(𝑘)^−𝒙^∗^ ‖^𝑝^)

那么,序列的收敛阶数(如果存在)至少为𝑝。

# 6.引理8.3

对于最速下降法而言,如果对于所有𝑘,𝒈^(𝑘)^≠0,那么当且仅当𝒈^(𝑘)^是矩阵𝑄的一个特征向量时,𝛾~𝑘~=1。

# 7.定理8.6

最速下降法在求解目标函数𝑓的极小点时,产生一个收敛的迭代点序列{𝒙^(𝑘)^},该序列在最坏的情况下收敛阶数为1。也就是说存在一个目标函数𝑓和某个点𝒙^(0)^,能够使得{𝒙^(𝑘)^}的收敛阶数为1。

一维搜索方法
牛顿法

← 一维搜索方法 牛顿法→

最近更新
01
计算机系统的硬件结构
10-12
02
计算机系统概论
10-12
03
进程
10-12
更多文章>
Theme by Vdoing | Copyright © 2019-2021 Evan Xu | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×