@@ -9,14 +9,14 @@ math: true
99
1010_ 这份笔记使用的部分图片、内容来自于北京交通大学深度学习课程,版权归课题组和原作者所有。_
1111
12- # 背景:关心的问题
12+ ## 背景:关心的问题
1313
1414- ** 优化问题:** 训练集上是否有好的结果?
1515- ** 泛化问题:** 测试集上是否有好的结果?
1616
17- ## 优化问题
17+ ### 优化问题
1818
19- ### 难点
19+ #### 难点
2020
2121- 网络结构多样性
2222
@@ -37,7 +37,7 @@ _这份笔记使用的部分图片、内容来自于北京交通大学深度学
3737
3838 - 在高维空间中,局部最小值(Local Minima)要求在每一维度上都是最低点,这种概率非常低。也就说是高维空间中大部分驻点都是鞍点。
3939
40- ### 改善方法
40+ #### 改善方法
4141
4242网络优化的改善方法的目标是更高效地找到更好的局部最小值
4343
@@ -52,7 +52,7 @@ _这份笔记使用的部分图片、内容来自于北京交通大学深度学
5252 - 逃离局部最优
5353 - 自适应学习率、梯度优化
5454
55- # 小批量梯度下降
55+ ## 小批量梯度下降
5656
5757- 批量梯度下降(batch gradient descent):每次更新都使用整个训练集数据,需要较多计算资源。所以提出小批量梯度下降。
5858
@@ -66,13 +66,13 @@ _这份笔记使用的部分图片、内容来自于北京交通大学深度学
6666
6767![ image-20250304204857077] ( ../assets/img/Autumn2024-hywan/image-20250304204857077.png )
6868
69- ## ** 对比**
69+ ### ** 对比**
7070
7171- ** 批量梯度下降** :利于寻找全局最优解,梯度方差小;但样本数目很多时,训练过程会很慢。
7272- ** 随机梯度下降** :训练速度快;准确度下降,不利于寻找全局最优,梯度方差大。
7373- ** 小批量梯度下降** :同时兼顾两种方法的优点。
7474
75- ## ** 批量大小的影响**
75+ ### ** 批量大小的影响**
7676
7777一般而言,批量大小不影响梯度的期望,但是会影响梯度的方差。
7878
@@ -81,26 +81,26 @@ _这份笔记使用的部分图片、内容来自于北京交通大学深度学
8181
8282![ image-20250304204909463] ( ../assets/img/Autumn2024-hywan/image-20250304204909463.png )
8383
84- # 学习率与梯度优化
84+ ## 学习率与梯度优化
8585
8686$$
8787\theta^t=\theta^{t-1}-\alpha \bold{g}^t
8888$$
8989
90- ## ** 学习率的影响**
90+ ### ** 学习率的影响**
9191
9292- 学习率过大:不收敛
9393- 学习率过小:收敛太慢
9494
95- ### 学习率衰减(Learning Rate Decay)
95+ #### 学习率衰减(Learning Rate Decay)
9696
9797- 开始时,距离极值点处很远,采用大些的学习率,尽快接近极值点。
9898- 迭代多次后,接近极值点处,减小学习率,保证收敛,避免震荡。
9999- 多种减小学习率的方式
100100
101101![ image-20250304204943497] ( ../assets/img/Autumn2024-hywan/image-20250304204943497.png )
102102
103- ### 学习率预热
103+ #### 学习率预热
104104
105105为什么:当batch-size比较大时,需要比较大的学习率。但开始训练的参数是随机初始化的,梯度往往也比较大,加上比较大的初始学习率,会使得训练不稳定。
106106
111111
112112- 当预热过程结束,再选择一种学习率衰减方法来逐渐降低学习率
113113
114- ### 周期性学习率调整
114+ #### 周期性学习率调整
115115
116116为了逃离局部最小值或鞍点,可在训练过程中周期性地增大学习率。短期内有损收敛稳定性,长期来看有助于找到更好的局部最优解。
117117
124124
125125![ image-20250304205407097] ( ../assets/img/Autumn2024-hywan/image-20250304205407097.png )
126126
127- ### 从学习率衰减到自适应学习率
127+ #### 从学习率衰减到自适应学习率
128128
129129学习率衰减的局限性
130130
138138- 而不常见特征的相关参数,由于缺乏足够的观测样本,所以其最佳值难以确定;
139139- ** 学习率** 要么对于常见特征的相关参数而言<u >衰减太慢</u >;要么对于不常见特征的相关参数而言<u >衰减太快</u >。
140140
141- ### AdaGrad算法:Adaptive Gradient Algorithm
141+ #### AdaGrad算法:Adaptive Gradient Algorithm
142142
143143该算法借鉴了 L2 正则化的思想,每次迭代时,自适应地调整每个参数的学习率。
144144
155155- 如果某个参数的偏导数累计比较大(小);其学习率相对较小(大);
156156- 整体来看,随着迭代次数的增加,学习率逐渐缩小
157157
158- ### RMSprop算法
158+ #### RMSprop算法
159159
160160** AdaGrad 局限** :在经过一定次数的迭代依然没有找到最优点时,由于这时的学习率已经非常小,很难再继续找到最优点
161161
162162** RMSprop** :将 $$ G_t $$ 的计算由“梯度的平方的累积”方式变成了“梯度平方的指数衰减移动平均”, 可以在有些情况下避免 AdaGrad 算法中学习率不断单调下降以至于过早衰减的缺点。
163163
164164![ image-20250304210339596] ( ../assets/img/Autumn2024-hywan/image-20250304210339596.png )
165165
166- ## 梯度修正
166+ ### 梯度修正
167167
168- ### 动量法 (Momentum)
168+ #### 动量法 (Momentum)
169169
170170动量(Momentum)是模拟物理中的概念。一个物体的动量指的是该物体在它运动方向上保持运动的趋势,是是该物体的质量和速度的乘积。
171171
177177
178178一般而言,在迭代初期,梯度方向都比较一致,动量法会起到加速作用,可以更快地到达最优点。在迭代后期,梯度方向会不一致,在收敛值附近震荡,动量法会起到减速作用,增加稳定性。
179179
180- ### Adam 算法
180+ #### Adam 算法
181181
182182Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
183183
184184![ image-20250304211218828] ( ../assets/img/Autumn2024-hywan/image-20250304211218828.png )
185185
186- ### 各优化算法比较
186+ #### 各优化算法比较
187187
188188- RMSProp 和 Adam 更好
189189- 目前最流行并且使用很高的优化算法包括:
@@ -193,7 +193,7 @@ Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
193193
194194![ image-20250304211329795] ( ../assets/img/Autumn2024-hywan/image-20250304211329795.png )
195195
196- ### 梯度截断
196+ #### 梯度截断
197197
198198除了梯度消失之外,梯度爆炸也是影响学习效率的主要因素。为了避免这种情况,当梯度的模大于一定阈值时,就对梯度进行截断,称为梯度截断(Gradient Clipping)
199199
@@ -207,7 +207,7 @@ Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
207207
208208![ image-20250304211535935] ( ../assets/img/Autumn2024-hywan/image-20250304211535935.png )
209209
210- # 参数初始化与数据预处理
210+ ## 参数初始化与数据预处理
211211
212212梯度下降法需要在开始训练时给每一个参数赋一个初始值。
213213
@@ -218,7 +218,7 @@ Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
218218- 初始化范围太小:导致信号慢慢消失,还会使得 Sigmoid 型激活函数丢失非线性能力
219219- 初始化范围太大:导致信号变得过大,还会使得 Sigmoid 型激活函数变得饱和,从而导致梯度消失
220220
221- ## 初始化方法
221+ ### 初始化方法
222222
223223- 预训练初始化:Pre-Training -> Fine-Tuning
224224- 固定值初始化:对于一些特殊的参数,我们可以根据经验用一个特殊的固定值来进行初始化,如偏置(bias)通常用0初始化
@@ -227,7 +227,7 @@ Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
227227 - 基于方差缩放的参数初始化
228228 - 正交初始化方法
229229
230- ## 基于固定方差的参数初始化
230+ ### 基于固定方差的参数初始化
231231
232232目标:从一个固定均值(通常为 0)和方差 $$ \sigma^2 $$ 的分布中采样来生成参数的初始值
233233
@@ -247,73 +247,73 @@ Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
247247
248248![ image-20250304212728765] ( ../assets/img/Autumn2024-hywan/image-20250304212728765.png )
249249
250- ### Xavier 初始化
250+ #### Xavier 初始化
251251
252252![ image-20250304213230936] ( ../assets/img/Autumn2024-hywan/image-20250304213230936.png )
253253
254254![ image-20250304213316392] ( ../assets/img/Autumn2024-hywan/image-20250304213316392.png )
255255
256- ### He 初始化
256+ #### He 初始化
257257
258258何恺明团队提出
259259
260260![ image-20250304213704539] ( ../assets/img/Autumn2024-hywan/image-20250304213704539.png )
261261
262- ### Xavier 初始化和 He 初始化的具体设置情况
262+ #### Xavier 初始化和 He 初始化的具体设置情况
263263
264264![ image-20250304213751970] ( ../assets/img/Autumn2024-hywan/image-20250304213751970.png )
265265
266- ### 正交初始化
266+ #### 正交初始化
267267
268268- 用均值为 0 、方差为 1 的高斯分布初始化一个矩阵;
269269- 将这个矩阵用奇异值分解得到两个正交矩阵,并使用其中之一作为权重矩阵。
270270
271- ## 基于方差缩放的参数初始化
271+ ### 基于方差缩放的参数初始化
272272
273273![ image-20250304213958288] ( ../assets/img/Autumn2024-hywan/image-20250304213958288.png )
274274
275- ## 数据预处理
275+ ### 数据预处理
276276
277277数据尺度(Scale)不一样对优化的影响
278278
279279![ image-20250304214134222] ( ../assets/img/Autumn2024-hywan/image-20250304214134222.png )
280280
281- ### 数据归一化
281+ #### 数据归一化
282282
283283
284284
285285![ image-20250304214158914] ( ../assets/img/Autumn2024-hywan/image-20250304214158914.png )
286286
287- ### 白化
287+ #### 白化
288288
289289![ image-20250304214258337] ( ../assets/img/Autumn2024-hywan/image-20250304214258337.png )
290290
291- ### 实际建议
291+ #### 实际建议
292292
293293- 自然灰度图像:均值消减 → PCA/ZCA白化
294294- 彩色图像:简单缩放 → PCA/ZCA白化
295295- 音频 (MFCC/频谱图):特征标准化 → PCA/ZCA 白化
296296- MNIST 手写数字:简单缩放/逐样本均值消减(→ PCA/ZCA 白化)
297297
298- # 逐层归一化
298+ ## 逐层归一化
299299
300- ## 批量归一化
300+ ### 批量归一化
301301
302302批量归一化是对一个中间层的** 单个神经元** 的K个样本(mini batch)进行归一化操作。
303303
304304![ image-20250304214611217] ( ../assets/img/Autumn2024-hywan/image-20250304214611217.png )
305305
306- ## 层归一化
306+ ### 层归一化
307307
308308层归一化是对一个中间层的所有神经元进行归一化。
309309
310310![ image-20250304214955060] ( ../assets/img/Autumn2024-hywan/image-20250304214955060.png )
311311
312- ## 批量归一化和层归一化的比较
312+ ### 批量归一化和层归一化的比较
313313
314314![ image-20250304215110122] ( ../assets/img/Autumn2024-hywan/image-20250304215110122.png )
315315
316- # 超参数优化
316+ ## 超参数优化
317317
318318神经网络中的超参数:
319319
@@ -328,7 +328,7 @@ Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
328328
329329- 网格搜索、随机搜索、贝叶斯优化、动态资源分配、神经架构搜索
330330
331- ## 网格搜索
331+ ### 网格搜索
332332
333333** 不可取**
334334
@@ -340,23 +340,23 @@ Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
340340
341341网格搜索根据这些超参数的不同组合分别训练一个模型,然后测试这些模型在验证集上的性能,选取一组性能最好的配置。
342342
343- ## 随机搜索
343+ ### 随机搜索
344344
345345超参数对模型性能影响程度不一样。采用网格搜索会在不重要的超参数上进行不必要的尝试。一种改进方法是对超参数进行随机组合,然后选取一个性能最好的配置,这就是随机搜索。
346346
347347** 在性能较好的点的附近进一步尝试搜索。**
348348
349349![ image-20250304215500059] ( ../assets/img/Autumn2024-hywan/image-20250304215500059.png )
350350
351- ## 贝叶斯优化
351+ ### 贝叶斯优化
352352
353353![ image-20250304215653002] ( ../assets/img/Autumn2024-hywan/image-20250304215653002.png )
354354
355- ## 动态资源分配
355+ ### 动态资源分配
356356
357357![ image-20250304215719879] ( ../assets/img/Autumn2024-hywan/image-20250304215719879.png )
358358
359- # 过拟合与正则化
359+ ## 过拟合与正则化
360360
361361如何提高神经网络的泛化能力:
362362
@@ -365,21 +365,21 @@ Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
365365- Dropout
366366- 数据增强
367367
368- ## l1 和 l2 正则化
368+ ### l1 和 l2 正则化
369369
370370![ image-20250304215908674] ( ../assets/img/Autumn2024-hywan/image-20250304215908674.png )
371371
372372![ image-20250304215919512] ( ../assets/img/Autumn2024-hywan/image-20250304215919512.png )
373373
374374![ image-20250304220214967] ( ../assets/img/Autumn2024-hywan/image-20250304220214967.png )
375375
376- ## 提前停止
376+ ### 提前停止
377377
378378使用一个验证集来测试每一次迭代的参数在验证集上是否最优。如果在验证集上的错误率不再下降,就停止选代。
379379
380380![ image-20250304220258576] ( ../assets/img/Autumn2024-hywan/image-20250304220258576.png )
381381
382- ## Dropout
382+ ### Dropout
383383
384384![ image-20250304220353068] ( ../assets/img/Autumn2024-hywan/image-20250304220353068.png )
385385
@@ -388,7 +388,7 @@ Dropout为什么会提升网络优化效果?
388388- Dropout简化了网络,防止过拟合
389389- Dropout可看作是一种集成学习:M个神经元 -> $$ 2^M $$ 个可能的网络
390390
391- ## 数据增强
391+ ### 数据增强
392392
393393图像数据的增强主要是通过算法对图像进行转变,引入噪声等方法来增加数据的多样性以及训练数据量。
394394
0 commit comments