凸优化

0. 前置知识

0.1 范数

对偶范数 z=sup{zTxx1}\|z\|_{*}=\sup \{z^{T}x|\|x\|\leqslant 1\}, 因此有不等式 zTxxzz^{T}x\leqslant \|x\|\|z\|_{*}

常见对偶范数存在关系 1p+1q=1\displaystyle \frac{1}{p}+\frac{1}{q}=1

比如 l2l_{2} 范数和 l2l_{2} 范数自身是对偶范数.再比如l1l_1范数和ll_\infty范数是对偶范数

还可以对矩阵定义算子范数:

Xa,b=sup{Xuaub1}\|X\|_{a,b}=\sup \{\|Xu\|_{a}|\|u\|_{b}\leqslant 1\}

当均为 Euclid 范数时, XX 的算子范数就是它的最大奇异值, 用 X2\|X\|_{2} 表示, 称作谱范数

X2=σmax(X)=(λmax(XTX))12\|X\|_{2}=\sigma_{\max}(X)=(\lambda_{\max}(X^{T}X))^{\frac{1}{2}}

其对偶范数为奇异值之和, 称作核范数

Z2=σ1(Z)++σr(Z)=tr(ZTZ)12\|Z\|_{2*}=\sigma_1(Z)+\cdots+\sigma_{r}(Z)=tr(Z^{T}Z)^{\frac{1}{2}}

AF=(i=1nσi2)12\displaystyle \|A\|_{F}=(\sum_{i=1}^{n}\sigma_{i}^{2})^{\frac{1}{2}}

矩阵的 Frobenius 范数:

XF=(tr(XTX))12=(i=1mj=1nXij2)12\displaystyle \|X\|_{F}=(tr(X^{T}X))^{\frac{1}{2}}=(\sum_{i=1}^{m}\sum_{j=1}^{n}X_{ij}^{2})^{\frac{1}{2}}

0.2 矩阵

AA 是对称矩阵记作 ASnA\in S^{n}

AA 是半正定矩阵记作 AS+nA\in S_{+}^{n}

AA 是正定矩阵记作 AS++nA\in S_{++}^{n}

定义矩阵内积等于迹 <A,B>=tr(ATB)\left<A,B\right>=tr(A^{T}B)

迹为对角线元素之和 tr(A)=i=1naii\displaystyle tr(A)=\sum_{i=1}^{n}a_{ii}

特征值之和等于迹 tr(A)=i=1nλi\displaystyle tr(A)=\sum_{i=1}^{n}\lambda_{i}

迹的交换律 tr(AB)=tr(BA)tr(AB)=tr(BA)

0.3 导数和梯度

导数, 记为 Df(x)Df(x), 定义为 f(z)f(z) 近似为 f(x)+Df(x)(zx)f(x)+Df(x)(z-x)

梯度, 记为 f(x)\nabla f(x), 定义为 f(z)f(z) 近似为 f(x)+f(x)T(zx)f(x)+\nabla f(x)^{T}(z-x)

f(x)=Df(x)T\nabla f(x)=Df(x)^{T}

0.4 链式法则

Dh(x)=Dg(f(x))Df(x)Dh(x)=Dg(f(x))Df(x) 也即有 h(x)=f(x)g(f(x))\nabla h(x)=\nabla f(x)\nabla g(f(x))

0.5 二阶导数

2f(x)ij=2f(x)xixj\displaystyle \nabla^{2}f(x)_{ij}=\frac{\partial^{2}f(x)}{\partial x_{i}\partial x_{j}}

supposeg(x)=f(Ax+b),we have 2g(x)=AT2f(Ax+b)A\displaystyle g(x) = f(Ax + b), \text{we have }\nabla^{2}g(x)=A^{T}\nabla^{2}f(Ax+b)A

0.6 线性代数

AA 的值域记作 R(A)={AxxRn}\mathcal{R}(A)=\{Ax|x\in \mathbb{R}^{n}\}

R(A)\mathcal{R}(A) 的维度称作 AA 的秩.

AA 的零空间记作 N(A)={xAx=0}\mathcal{N}(A)=\{x|Ax=0\}

AA 的正交补为 A={xzTx=0 for all zA}A^{\perp}=\{x|z^{T}x=0 \text{ for all } z\in A\}

一个基本结果为 N(A)=R(AT)\mathcal{N}(A)=\mathcal{R}(A^{T})^{\perp}

实对称矩阵 ASnA\in S^{n} 可因式分解为 A=QΛQTA=Q\Lambda Q^{T}, 其中 QQ 为正交矩阵, Λ\Lambda 为对角线为特征值 λi\lambda_{i} 的矩阵.

AA 的特征值分解为 UΣVTU\Sigma V^{T}, 定义其伪逆为 VΣ1UTV\Sigma^{-1}U^{T}

对于 X=[ABBTC]X=\begin{bmatrix} A & B \\ B^{T} & C \end{bmatrix} 的 Schur 补为 S=CBTA1BS=C-B^{T}A^{-1}B

1. 数学优化

1.1 优化问题

minf0(x)s.t.fi(x)bi\begin{aligned} \min \quad & f_0(x) \\ \mathrm{s.t.} \quad & f_{i}(x)\leqslant b_{i} \end{aligned}

1.2 线性规划问题

目标函数和约束函数均为线性函数.

对于任意 α,β\alpha, \beta, 有

fi(αx+βy)=αfi(x)+βfi(y)\displaystyle f_{i}(\alpha x+\beta y)=\alpha f_{i}(x)+\beta f_{i}(y)

1.3 凸优化问题

目标函数和约束函数均为线性函数.

对于 α+β=1,α0,β0\alpha+\beta=1, \alpha\geqslant 0, \beta\geqslant 0, 有

fi(αx+βy)αfi(x)+βfi(y)\displaystyle f_{i}(\alpha x+\beta y)\leqslant \alpha f_{i}(x)+\beta f_{i}(y)

1.4 最小二乘问题

minAxb22=i=1k(aiTxbi)2\displaystyle \min \|Ax-b\|_{2}^{2}=\sum_{i=1}^{k}(a_{i}^{T}x-b_{i})^{2}

令梯度等于零

2AT(Axb)=0ATAx=ATbx=(ATA)1ATb2A^{T}(Ax-b)=0 \Rightarrow A^{T}Ax=A^{T}b \Rightarrow x=(A^{T}A)^{-1}A^{T}b

ARk×nA\in \mathbb{R}^{k\times n}, 则计算时间为 n2kn^{2}k

2. 凸集

2.1 仿射集

任意 x1,x2Cx_1, x_2\in C, 有 θx1+(1θ)x2C\theta x_1+(1-\theta)x_2\in C, 其中 θR\theta\in \mathbb{R}

我们称 θ1x1++θkxk\theta_1x_1+\cdots+\theta_{k}x_{k}x1,,xkx_1,\cdots,x_{k} 的一个仿射组合, 其中 θ1++θk=1\theta_1+\cdots+\theta_{k}=1 CC 的仿射组合依然在 CC 中.

对于任意 x0Cx_0\in C, 我们有 V=Cx0V=C-x_0 是一个子空间, 即对加法和数乘封闭.

线性方程组的解集是一个仿射集合, 反之亦然.

仿射包是包含 CC 最小的仿射集合, 记作 aff C\text{aff } C

2.2 凸集

任意 x1,x2Cx_1, x_2\in C, 有 θx1+(1θ)x2C\theta x_1+(1-\theta)x_2\in C, 其中 0θ10\leqslant \theta\leqslant 1

我们称 θ1x1++θkxk\theta_1x_1+\cdots+\theta_{k}x_{k}x1,,xkx_1,\cdots,x_{k} 的一个凸组合, 其中 θ1++θk=1\theta_1+\cdots+\theta_{k}=1θi0\theta_{i}\geqslant 0

CC 的凸组合依然在 CC 中.

我们称集合 CC 中所有点的凸组合的集合为凸包, 它是包含了 CC 的最小凸集, 记作 conv C\text{conv } C

可以拓展到概率分布形式, 即 E[x]=Cp(x)dxC\displaystyle E[x]=\int_{C}p(x)\mathrm{d}x\in C

2.3 锥

任意 xC,θ0x\in C, \theta\geqslant 0, 有 θxC\theta x\in C

即一堆从原点出发的射线的集合.

凸锥定义为任意 x1,x2C,θ1,θ20x_1, x_2\in C, \theta_1, \theta_2\geqslant 0, 有 θ1x1+θ2x2C\theta_1x_1+\theta_2x_2\in C

我们称 θ1x1++θkxk\theta_1x_1+\cdots+\theta_{k}x_{k}x1,,xkx_1,\cdots,x_{k} 的一个凸组合, 其中 θi0\theta_{i}\geqslant 0

锥包是包含 CC 的最小凸锥.

2.4 超平面

{xaTx=b}\{x|a^{T}x=b\} 被称为超平面, 也可以写成 {xaT(xx0)=0}\{x|a^{T}(x-x_0)=0\}x0+ax_0+a^{\perp}

即与向量 aa 垂直的, 过 x0x_0 的所有向量组成的超平面.

2.5 半空间

{xaTxb}\{x|a^{T}x\leqslant b\} 被称为半空间.

2.6 椭球

{x(xxc)TP1(xxc)1}\{x|(x-x_{c})^{T}P^{-1}(x-x_{c})\leqslant 1\}, 其中 PS++nP\in S_{++}^{n}

2.7 范数锥

{(x,t)xt}Rn+1\{(x,t)|\|x\|\leqslant t\}\subseteq \mathbb{R}^{n+1}

2.8 多面体

多面体被定义为有限个等式和不等式的解集, 即有限个半空间和超平面的交集.

P={xAxb,Cx=d}\displaystyle P=\{x|Ax\preceq b, Cx=d\}

2.9 单纯形

基于 k+1k+1 个仿射独立的向量构造的凸包, 是一个多面体, 被称为单纯形.

比如一维的线段, 二维的三角形.

单位单纯形: x0,1Tx=1x\succeq 0, 1^{T}x=1

2.10 保凸运算

2.11 广义不等式

如果 KK 是闭的, 实的, 尖的凸锥, 则称为正常锥.

定义广义不等式为

xKyyxKx\preceq_{K} y \Leftrightarrow y-x\in K

xKyyxint Kx\prec_{K} y \Leftrightarrow y-x\in \text{int } K

常见的有非负象限和半正定锥. 前者常用于向量之间, 被称为分量不等式; 后者常用于矩阵之间, 称为矩阵不等式.

2.12 最小与极小元

对任意 ySy\in S, 均有 xKyx\preceq_{K}y, 则称 xxSS 的最小元, 最小元存在时是唯一的, 也可以定义为 Sx+KS\subseteq x+K,必须是集合中所有元素都与xx可比,当不可比时不存在最小元.

如果 ySy\in SyKxy\preceq_{K}x 可推出 y=xy=x, 则称 xxSS 的极小元, 极小元可以有很多个, 也可以定义为 (xK)S={x}(x-K)\cap S=\{x\}.

2.13 超平面分离定理

两个不相交的凸集可以找到一个超平面将它们分离.

分离为 aTxba^{T}x\geqslant b 对于 xCx\in CaTxba^{T}x\leqslant b 对于 xDx\in D

严格分离为 aTx>ba^{T}x>b 对于 xCx\in CaTx<ba^{T}x<b 对于 xDx\in D

其中至少一个为开集时, 逆定理成立.

2.14 支撑超平面定理

x0x_0 是边界上一点 x0bd C=cl C\int Cx_0\in \text{bd }C=\text{cl }C \backslash\text{int }C

a0a\neq 0 且对任意 xCx\in C 满足 aTxaTx0a^{T}x\leqslant a^{T}x_0, 则称 {xaT(xx0)=0}\{x|a^{T}(x-x_0)=0\} 为在点 x0x_0 处的支撑超平面.

任何凸集的边界上任意一点均存在支撑超平面.

CC 具有非空内部且是闭的, 边界上每一点存在支撑超平面, 则是一个凸集.

2.15 对偶锥

K={yxTy0,xK}K^{*}=\{y|x^{T}y\geqslant 0, \forall x\in K\}

yKy\in K^{*} 当且仅当 y-yKK 在原点的一个支撑超平面的法线.

与锥中任何一个向量均形成锐角或直角的向量组成的锥.

子空间的对偶锥是它的正交补.

非负象限的对偶锥是它自身.

半正定锥的对偶锥是它自身.

3. 凸函数

3.1 凸函数

f(θx+(1θ)y)θf(x)+(1θ)f(y)f(\theta x+(1-\theta)y)\leqslant \theta f(x)+(1-\theta)f(y)

3.2 一阶条件

一阶可微, 定义域是凸集且 f(y)f(x)+f(x)T(yx)f(y)\geqslant f(x)+\nabla f(x)^{T}(y-x)

必要性:

对任意 0<t10<t\leqslant 1x+t(yx)dom fx+t(y-x)\in \text{dom }f

f(x+t(yx))(1t)f(x)+tf(y)f(x+t(y-x))\leqslant (1-t)f(x)+tf(y)

两边同时除 ttf(y)f(x)+f(x+t(yx))f(x)t\displaystyle f(y)\geqslant f(x)+\frac{f(x+t(y-x))-f(x)}{t}

t0t\to 0 即可.

充分性:

z=θx+(1θ)yz=\theta x+(1-\theta)y

则有 f(x)f(z)+f(z)(xz)f(x)\geqslant f(z)+f'(z)(x-z)f(y)f(z)+f(z)(yz)f(y)\geqslant f(z)+f'(z)(y-z)

两式相加即可.

一般情况, 令 g(t)=f(ty+(1t)x)g(t)=f(ty+(1-t)x), 则 g(t)=f(ty+(1t)x)T(yx)g'(t)=\nabla f(ty+(1-t)x)^{T}(y-x)

g(1)g(0)+g(0)g(1)\geqslant g(0)+g'(0) 可得 f(y)f(x)+f(x)T(yx)f(y)\geqslant f(x)+\nabla f(x)^{T}(y-x)

反之则用 g(t)g(t~)+g(t~)(tt~)g(t)\geqslant g(\tilde{t})+g'(\tilde{t})(t-\tilde{t})

即将高维 ff 转化为一维 gg.

3.3 二阶条件

二阶可微, 定义域是凸集且 2f(x)0\nabla^{2}f(x)\succeq 0

3.4 例子

3.5 下水平集

Cα={xdom ff(x)α}C_{\alpha}=\{x\in \text{dom }f|f(x)\leqslant \alpha\}

凸函数的下水平集是凸集. 反之则不然.

3.6 上境图

epi f={(x,t)xdom f,f(x)t}\text{epi } f = \{(x,t)|x\in \text{dom }f, f(x)\leqslant t\}

函数是凸函数当且仅当其上境图是凸集.

例如 xTY1xtx^{T}Y^{-1}x\leqslant t 可以化作 Schur 补 [YxxTt]0\begin{bmatrix} Y &x \\ x^{T} &t \\\end{bmatrix}\succeq 0

3.7 保凸运算

3.8 共轭函数

f(y)=supxdom f(yTxf(x))\displaystyle f^{*}(y)=\sup_{x\in \text{dom } f} (y^{T}x-f(x))

共轭函数是一系列仿射函数的逐点上确界, 因此也是凸函数.

如果可微, 则求解 f(x)=yf'(x)=yxx 代入即可.

Fenchel 不等式 (可微时即为 Young 不等式):

f(x)+f(y)xTy\displaystyle f(x)+f^{*}(y)\geqslant x^{T}y

例如 xTy12xTQx+12yTQ1yx^{T}y\leqslant \frac{1}{2}x^{T}Qx+\frac{1}{2}y^{T}Q^{-1}y

闭凸函数的两次共轭函数是自身, 即 f=ff^{**}=f

3.9 拟凸函数

定义域和所有下水平集 Sα={xdom ff(x)α}S_{\alpha}=\{x\in \text{dom }f|f(x)\leqslant \alpha\} 均为凸集的函数.

基本性质:

f(θx+(1θ)y)max{f(x),f(y)}f(\theta x+(1-\theta)y)\leqslant \max\{f(x), f(y)\}

一阶条件:

f(y)f(x)f(x)T(yx)0f(y)\leqslant f(x) \Rightarrow \nabla f(x)^{T}(y-x)\leqslant 0

二阶条件:

yTf(x)=0yT2f(x)y0y^{T}\nabla f(x)=0 \Rightarrow y^{T}\nabla^{2}f(x)y\geqslant 0

f(x)=0f(x)0f'(x)=0 \Rightarrow f''(x)\geqslant 0

4. 优化问题

4.1 等价问题

如果从一个问题的解,容易得到另一个问题的解,反之亦然,我们称这两个问题是等价的.有时引入等价的转换能够使问题更容易解决.

4.2 凸优化问题

minf0(x)s.t.fi(x)0,i=1,2,,mAx=b\begin{aligned} \min \quad & f_0(x) \\ \mathrm{s.t.} \quad & f_{i}(x)\leqslant 0, & i=1,2,\cdots,m \\ & Ax=b \end{aligned}

f0f_0 为凸优化问题的目标函数, XX 为其可行集.

最优性准则:

xXx\in X 是最优解, 当且仅当 f0(x)T(yx)0,yX\nabla f_0(x)^{T}(y-x)\geqslant 0, \forall y\in X

凸优化问题的基本性质为任意局部最优解也是全局最优解,通过反证法证明。
Suppose x is local optima and y is global optima.We have
f0(x)=inf{f0(z)z feasible,zx2R}yx2>Rdefine z=(1θ)x+θy,θ=R2yx2  zx2=R2f0(z)(1θ)f0(x)+θf0(y)<f0(x)推出矛盾\begin{aligned} &f_0(x) = \inf \{f_0(z)\mid \text{z feasible,}\|z-x\|_2 \leq R\}\\ & \|y-x\|_2 > R\\ &\text{define }z = (1-\theta)x + \theta y,\quad \theta = \frac{R}{2\|y-x\|_2}\\ \Rightarrow \ \ & \|z-x\|_2 = \frac{R}{2}\\ & f_0(z) \leq (1-\theta)f_0(x) +\theta f_0(y) < f_0(x) \text{推出矛盾} \end{aligned}

5. 对偶

5.1 Lagrange 对偶函数

标准形式优化问题:

minf0(x)s.t.fi(x)0,i=1,2,,mhi(x)=0i=1,2,,p\begin{aligned} \min \quad & f_0(x) \\ \mathrm{s.t.} \quad & f_{i}(x)\leqslant 0, & i=1,2,\cdots,m \\ & h_{i}(x)=0 & i=1,2,\cdots,p \end{aligned}

Lagrange 函数:

L(x,λ,v)=f0(x)+i=1mλifi(x)+i=1pvihi(x)\displaystyle L(x,\lambda,v)=f_0(x)+\sum_{i=1}^{m}\lambda_{i}f_{i}(x)+\sum_{i=1}^{p}v_{i}h_{i}(x)

Lagrange 对偶函数:

g(λ,v)=infxDL(x,λ,v)=infxD(f0(x)+i=1mλifi(x)+i=1pvihi(x))\displaystyle g(\lambda, v)=\inf_{x\in D}L(x,\lambda,v)=\inf_{x\in D}(f_0(x)+\sum_{i=1}^{m}\lambda_{i}f_{i}(x)+\sum_{i=1}^{p}v_{i}h_{i}(x))

对偶函数总是凹函数, 因为是一系列仿射函数的逐点下确界.

对任何 λ0\lambda\succeq 0vv 均有 g(λ,v)pg(\lambda, v)\leqslant p^{*} 成立.

5.2 Lagrange 对偶问题

对偶问题:

maxg(λ,v)s.t.λ0\begin{aligned} \max \quad & g(\lambda, v) \\ \mathrm{s.t.} \quad & \lambda\succeq 0 \end{aligned}

对偶问题是一个凸优化问题. 其对偶最优解 (λ,v)(\lambda^{*}, v^{*}) 也叫最优 Lagrange 乘子.

但是实际上 g(λ,v)g(\lambda,v) 存在隐式约束, 即它的非 -\infty 定义域.

我们用 dd^{*} 表示 Lagrange 对偶问题的最优值, pp^{*} 表示原问题的最优值.

pdp^{*}-d^{*} 为原问题的最优对偶间隙.

5.3 强对偶性

如果 d=pd^{*}=p^{*} 成立, 那么强对偶性成立.

Slater 条件:

如果原问题是凸优化问题, 并且满足 Slater 条件, 即

存在一点 xrelint Dx\in \text{relint }D 使得 fi(x)<0f_{i}(x)<0Ax=bAx=b 成立, 也称为严格成立, 则强对偶性成立.

如果部分 fi(x)f_{i}(x) 是仿射函数, 则只需仿射函数 fi(x)0f_{i}(x)\leqslant 0 即可.

5.4 KKT 最优性条件

如果强对偶性成立, 最优解必须满足 KKT 条件.

因为我们知道 L(x,λ,v)L(x,\lambda^{*},v^{*})xx^{*} 处的导数必须为零, 即

f0(x)+i=1mλifi(x)+i=1pvihi(x)=0\displaystyle \nabla f_0(x^{*})+\sum_{i=1}^{m}\lambda_{i}^{*}\nabla f_{i}(x^{*})+\sum_{i=1}^{p}v_{i}^{*}\nabla h_{i}(x^{*})=0

因此, 我们有 KKT 条件:

fi(x)0,i=1,2,,mhi(x)=0,i=1,2,,pλi0,i=1,2,,mλifi(x)=0,i=1,2,,mf0(x)+i=1mλifi(x)+i=1pvihi(x)=0,\begin{aligned} f_{i}(x^{*})\leqslant 0, \quad & i=1,2,\cdots,m \\ h_{i}(x^{*})= 0, \quad & i=1,2, \cdots,p \\ \lambda_{i}^{*}\geqslant 0, \quad & i=1,2,\cdots,m \\ \lambda_{i}^{*}f_{i}(x^{*})=0, \quad & i=1,2,\cdots,m \\ \nabla f_0(x^{*})+\sum_{i=1}^{m}\lambda_{i}^{*}\nabla f_{i}(x^{*})+\sum_{i=1}^{p}v_{i}^{*}\nabla h_{i}(x^{*})=0, \quad \end{aligned}

对于非凸问题, 最优解和 KKT 条件只是单向的.

对于凸问题, 满足 KKT 条件的点也是原问题和对偶问题的最优解, 是双向的.

6. 应用

6.1 范数逼近

minAxb\min\|Ax-b\|

6.2 强凸性

存在 m>0m>0 使得 2f(x)mI\nabla^{2}f(x)\succeq mI, 则有

  1. 二次下界不等式 f(y)f(x)+f(x)T(yx)+m2yx22\displaystyle f(y)\geqslant f(x)+\nabla f(x)^{T}(y-x)+\frac{m}{2}\|y-x\|_{2}^{2}
  2. 次优性条件 f(x)p12mf(x)22\displaystyle f(x)-p^{*}\leqslant \frac{1}{2m}\|\nabla f(x)\|_{2}^{2}, 即梯度足够小, 则解接近最优
  3. 上界 xx22mf(x)2\displaystyle \|x^{*}-x\|_{2}\leqslant \frac{2}{m}\|\nabla f(x)\|_{2}

6.3 平滑性

存在 M>0M>0 使得 2f(x)MI\nabla^{2}f(x)\preceq MI, 则有

  1. 二次上界不等式 f(y)f(x)+f(x)T(yx)+M2yx22\displaystyle f(y)\leqslant f(x)+\nabla f(x)^{T}(y-x)+\frac{M}{2}\|y-x\|_{2}^{2}
  2. 梯度上界 12Mf(x)22f(x)p\displaystyle \frac{1}{2M}\|\nabla f(x)\|_{2}^{2}\leqslant f(x)-p^{*}

6.4 下降方法

一个优化点列 x(k+1)=x(k)+t(k)Δx(k)x^{(k+1)}=x^{(k)}+t^{(k)}\Delta x^{(k)}

此处 Δx\Delta x 是一个向量, 被称为步径或搜索方向; t(k)t^{(k)} 被称为第 kk 次迭代的步进或步长.

只要不是最优点就成立 f(x(k+1))<f(x(k))f(x^{(k+1)})<f(x^{(k)})

因此一个下降方法中的搜索方向必须满足 f(x(k))TΔx(k)<0\nabla f(x^{(k)})^{T}\Delta x^{(k)}<0

即它和负梯度方向的夹角必须是锐角.

选取 Δx=f(x)\Delta x=-\nabla f(x) 是一种很自然的选择, 相应的方法被称为梯度下降法.

选取 t(k)t^{(k)} 的方法有精准直线搜索和回溯直线搜索.

精确直线搜索: t=arg mins0f(x+sΔx)\displaystyle t=\argmin_{s\geqslant 0}f(x+s\Delta x)

回溯直线搜索:

给定参数 α(0,0,5),β(0,1)\alpha\in (0,0,5), \beta\in (0,1), 初始值 t:=1t:=1

如果 f(x+tΔx)>f(x)+αtf(x)TΔxf(x+t\Delta x)>f(x)+\alpha t\nabla f(x)^{T}\Delta x, 则令 t:=βtt:=\beta t