微积分基础
# x1.序列与极限
实数序列是自然数集合到实数集合的函数。
记为{𝑥_1,𝑥_2,…,𝑥~𝑘~,…}或{𝑥~𝑘~ }
递增,递减,非增,非减序列。
序列极限的定义:
$∀𝜀>0, ∃𝐾, 𝑠.𝑡. $当𝑘>𝐾时,有$|𝑥_𝑘−𝑥^∗ |<𝜀$成立。则称$𝑥^∗∈ℝ为$序列{𝑥~𝑘~ }的极限。记作 $𝑥^∗=\lim_{𝑘\to \infty}𝑥_𝑘$或 $𝑥_𝑘→𝑥^∗$
可以将实数序列的定义、极限的定义,扩展到实数向量序列,和其极限上来。
定理5.1: 收敛序列的极限是唯一的。
定理5.2 任意收敛序列是有界的。
定理5.3 ℝ中任意单调有界序列是收敛序列。
定理5.4 给定一个极限为𝑥^∗^的收敛序列{𝑥^(𝑘)^},那么{𝑥^(𝑘)^}的任意子序列也收敛于𝑥^∗^。
波尔查诺-魏尔斯特拉斯定理: 任意有界序列都包含一个收敛子序列。
函数的连续性的定义:
𝑓在𝑥~0~处连续,当且仅当对于任意极限为𝑥~0~的收敛序列{𝑥^𝑘^},满足 $\lim_{𝑘→∞}𝑓(𝑥_𝑘)= 𝑓(\lim_{𝑘→∞}𝑥_𝑘)=𝑓(𝑥_0)$ $\lim_{𝑥→𝑥_0}𝑓(𝑥)= 𝑓(𝑥_0)$
# 1.序列矩阵收敛
# 定义:
给定𝑚×𝑛矩阵序列{𝐴~𝑘~}和𝑚×𝑛矩阵𝐴,如果
$\lim_{𝑘→∞}{||𝐴−𝐴_𝑘 ||}= 0$
则称该序列矩阵收敛于矩阵𝐴。
# 引理5.1:
令$A∈𝑅^{𝑛×𝑛}$,当且仅当𝐴的所有特征值$|𝜆_𝑖 (𝐴)|<1(𝑖=1,2,…,𝑛)$时,有$\lim_{𝑘 \to ∞}𝐴^𝑘=0$
# 引理5.2:
任意收敛序列是有界的。
𝑛×𝑛的矩阵序列 $𝐼_𝑛+𝐴+𝐴^2+…+𝐴^𝑘+…$ 是收敛的,当且仅当。$\displaystyle\lim _{𝑘 \to ∞}𝐴^𝑘=0$。此时,序列的和为$(𝐼_𝑛−𝐴)^{−1}$ 。(其中I~n~代表单位矩阵。)
# 引理5.3:
令$𝐴:𝑅^𝑟→𝑅^{𝑛×𝑛}$为𝑛×𝑛的矩阵值函数,它在点𝜉~0~处连续。如果$𝐴(𝜉_0)^{−1}$存在,那么对于充分接近点𝜉~0~的𝜉, (𝜉)^−1^存在,且𝐴(.)^−1^在点𝜉~0~处连续。
# x2.可微性
# 1.仿射函数
# 广义定义:
如果存在线性函数ℒ:ℝ^𝑛^→ℝ^𝑚^和向量𝑦∈ℝ^𝑚^,使得对于任意的𝒙∈ℝ^𝑛^,都有 𝒜(𝒙)=ℒ(𝒙)+𝒚 那么称函数𝒜:ℝ^𝑛^→ℝ^𝑚^是一个仿射函数。
说明:道理和二维平面的可微基本相同,二维平面中的仿射函数代表一个可任意平移的直线,而广义的仿射函数则代表一个可以无限延展的平面或者超平面。
# 性质:
仿射函数𝒜在𝑥_0点处近似函数𝑓 𝒜(𝑥_0 )=𝑓(𝑥_0 )_
$\lim_{𝑥→𝑥_0}\frac{||𝑓(𝑥)−A(𝑥)||}{||𝑥−𝑥_0 ||}=0$
由𝒜(𝒙)=ℒ(𝒙)+𝒚及ℒ(𝒙)为线性函数,可得 𝒜(𝒙)=ℒ(𝒙)+ 𝑓(𝑥~0~ )−ℒ(𝑥~0~ ) =ℒ(𝒙−𝑥~0~ )+ 𝑓(𝑥~0~ )
# 2.可微性定义
给定函数𝑓:Ω→ℝ^𝑚^, Ω∈ℝ^𝑛^, 如果存在一个仿射函数能够在点𝑥~0~附近近似函数𝑓,那么就称函数𝑓在点𝑥~0~∈Ω处是可微的。即存在线性函数ℒ:ℝ^𝑛^→ℝ^𝑚^,使得 $lim_{𝑥→𝑥_0} \frac{||𝑓(𝑥)−ℒ(𝑥−𝑥_0 )+𝑓(𝑥_0)||}{||𝑥−𝑥_0 ||}=0$ 上式中ℒ可由𝑓和𝑥~0~唯一确定。ℒ成为𝑓在𝑥~0~处的导数。
说明:可微性的定义可以类比二维平面的可微性,二维平面的可微性代表曲线的一个点可以由一条唯一的直线表示出来(即曲线点可以,折线的折点不行),而多维平面的可微性代表取周围值,可以由唯一一个平面或者超平面表示出来。
# 推导:
可微→可导→连续
# x3.导数矩阵
# 定义(定理5.5):
如果函数𝑓:ℝ^𝑛^→ℝ^𝑚^在点𝑥~0~是可微的,那么𝑓在点𝑥~0~处的导数可以唯一确定,并可以表示为𝑚×𝑛的导数矩阵D𝑓(𝑥~0~ )。能够在点𝑥~0~附近对𝑓进行最佳近似的仿射函数为 𝒜(𝒙)=𝑓(𝑥~0~ )+𝐷𝑓(𝑥~0~)(𝑥−𝑥~0~) 导数矩阵𝐷𝑓(𝑥~0~)的列为向量偏导数。向量$\frac{𝜕𝑓}{𝜕𝑥_𝑗}(𝑥_0)$是函数曲线𝑓在点𝑥~0~的切线向量。
说明:类似于二维平面的导数,不同于二维平面的导数,它不是一个标量,而是一个矩阵,每个值都是函数f对向量的不同值的偏导。
# 梯度:
如果函数𝑓:ℝ^𝑛^→ℝ是可微的,那么函数
𝛻𝑓(𝑥)=D𝑓(𝑥)^T^
称为𝑓的梯度。
# Hessian矩阵(黑塞矩阵):
给定函数𝑓:ℝ^𝑛^→ℝ,如果梯度𝛻𝑓(𝑥)可微,则称𝑓是二次可微的, 𝛻𝑓(𝑥)的导数记为
如果𝑓:ℝ^𝑛^→ℝ是在点𝑥是二次连续可微的,那么𝑓在点𝑥的==Hessian矩阵(黑塞矩阵)==对称。
# 定理5.6:
如果𝑔: 𝒟→ℝ在开集𝒟⊆ℝ^𝑛^上是可微的,且𝑓:(𝑎,𝑏)→𝒟在(𝑎,𝑏)上可微。那么它们的复合函数ℎ:(𝑎,𝑏)→ℝ,ℎ(𝑡)=𝑔(𝑓(𝑡))在(𝑎,𝑏)上可微,且导数为
# x4.微分法则
令𝑓:ℝ^𝑛^→ℝ^𝑚^和𝑔:ℝ^𝑛^→ℝ^𝑚^表示两个可微函数,函数ℎ:ℝ^𝑛^→ℝ定义为ℎ(𝑥)=𝑓(𝑥)^T^𝑔(𝑥),那么ℎ也是可微的,且 𝐷ℎ(𝑥)=𝑓(𝑥)^⊺^^𝐷𝑔(𝑥)+𝑔(𝑥)^⊺^^𝐷𝑓(𝑥)
𝐷(𝑦^⊺^ 𝐴𝑥)=𝑦^⊺^ 𝐴 𝐷(𝑥^⊺^ 𝐴𝑥)=𝑥^⊺^ (𝐴+𝐴^⊺^) 𝐷(𝑦^⊺^ 𝑥)=𝑦^⊺^ 𝐷(𝑥^⊺^ 𝑄𝑥)=2𝑥^⊺^ 𝑄 𝐷(𝑥^⊺^ 𝑥)=2𝑥^⊺^
# x5.水平集与梯度
水平集:
函数𝑓:ℝ^𝑛^→ℝ在水平𝑐上的水平集定义为 𝑆={𝑥:𝑓(𝑥)=𝑐} 对于𝑓:ℝ^2^→ℝ,水平集𝑆是一条曲线;对于𝑓:ℝ^3^→ℝ,水平集𝑆通常是一组曲面。
如果𝛻𝑓(𝑥~0~ )≠0,那么所有满足𝛻𝑓(𝑥~0~ )^⊺^(𝑥−𝑥~0~ )=0的𝑥组成的集合,成为水平集𝑆在点𝑥~0~处的切平面。
切线超平面:曲面的一个点的切平面 𝑧−𝑧~0~=(𝑥−𝑥~0~ )^⊺^ 𝛻𝑓(𝑥~0~)