神经网络总结

Gradient Descent & Optimizer

梯度下降算法的思路是迭代更新参数,沿着目标函数的负梯度方向逐步减小目标函数的值。梯度表示目标函数在某一点的变化率,负梯度方向是目标函数下降最快的方向。

Back Propagation

一种用于训练神经网络的优化算法,其基本思想是通过计算目标函数对网络参数的梯度,然后利用梯度信息来更新参数以最小化目标函数。反向传播广泛用于深度学习中,特别是多层神经网络的训练过程。
通过链式求导法则计算损失函数对于每个参数的梯度,之后利用梯度下降算法来更新网络参数。BP和GD结合被用于大量神经网络的训练。

Loss Functions

用来度量模型的预测值f(X)f(X)与真实值YY的差异程度的运算函数,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数数值越小,模型的鲁棒性就越好。

Convolution & CNN

卷积是一种数学运算,常用于信号处理,图像处理等领域。其定义为(fg)(t)=f(τ)g(tτ)dτ(f*g)(t) = \int_{-\infty}^\infty f(\tau)g(t-\tau)d\tau。深度学习中,卷积被拿来做特征提取、图像滤波等操作,即利用卷积核在图片上滑动做多次卷积操作得到抽取特征后的输出。相较于传统的全连接神经网络(FCN)优势在于大幅减少参数量,平移不变性。

RNN

LSTM

semi-supervised learning

一种机器学习范式,它结合了监督学习和无监督学习的元素。在半监督学习中,模型在训练时同时使用有标签和无标签的数据。通常情况下,有标签的数据相对较少,而无标签的数据则相对较多。
Small portion of data is labeled, most of data is unlabeled.

transfer learning

现有的数据与目标任务并不直接匹配,迁移学习希望利用一定的额外数据和已有模型,将其用在新任务上。

GAN

minGmaxDV(D,G)=Expdata(x)[logD(x)]+Ezpz(z)[1log(D(G(z)))]\min_G\max_D V(D,G)= \mathbb{E}_{x\sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z\sim p_{z}(z)}[1-\log(D(G(z)))]
JS散度定义:JS(PrPg)=KL(PrPm)+KL(PgPm)  where  Pm=Pr+Pg2JS(\mathbb{P}_r || \mathbb{P}_g) = KL(\mathbb{P}_r || \mathbb{P}_m) + KL(\mathbb{P}_g||\mathbb{P}_m)\ \ where\ \ \mathbb{P}_m = \frac{\mathbb{P}_r + \mathbb{P}_g}{2}
wasserstein距离定义:W(PrPg)=infγΠ(Pr,Pg)E(x,y)γ[xy]W(\mathbb{P}_r||\mathbb{P}_g) = \inf_{\gamma \sim \Pi(\mathbb{P}_r,\mathbb{P}_g)}\mathbb{E}_{(x,y)\sim \gamma}[\|x-y\|]