第2章 第二集:超脑显威,课堂惊四座(2/2)
“叶南,”李教授推了推眼镜,“你来说说,神经网络中,激活函数的作用是什么?常用的激活函数有哪些?各自的优缺点是什么?”
话音刚落,教室里所有人的目光都集中到了叶南身上,包括后面的赵磊,脸上带着看好戏的表情。谁都知道,叶南上节课差点睡着了,平时作业也是抄的,怎么可能答得上来?
赵磊甚至已经准备好了,等叶南答不上来的时候,就小声和身边的人嘲笑他。
但接下来,叶南的表现让所有人都惊呆了。
叶南站起来,声音清晰、语速平稳,没有丝毫卡顿:“激活函数的核心作用是为神经网络引入非线性因素,否则无论神经网络有多少层,最终都只是一个线性回归模型,无法处理复杂的非线性问题。常用的激活函数主要有四种:第一种是Sigoid函数,优点是输出值在0到1之间,可用于二分类问题的概率输出,缺点是存在梯度消失问题,在深层网络中表现不佳,且输出不是零均值,会影响梯度下降的效率;第二种是tanh函数,解决了Sigoid函数零均值的问题,输出值在-1到1之间,但同样存在梯度消失问题,在输入值较大或较小时,梯度趋近于零;第三种是ReLU函数,优点是计算速度快,在输入为正时梯度恒为1,有效解决了梯度消失问题,缺点是存在‘死亡ReLU’现象,当输入为负时,神经元永久失活;第四种是Leaky ReLU函数,在ReLU的基础上,为负输入值添加了一个很小的斜率,解决了死亡ReLU问题,但超参数需要手动调整,在某些场景下鲁棒性不如ReLU……”
叶南不仅答出了激活函数的作用和种类,还详细分析了每种函数的优缺点,甚至提到了“死亡ReLU”“鲁棒性”这些课本上没有深入讲的知识点,条理清晰,逻辑严谨,比李教授课件上的内容还要全面。
教室里鸦雀无声,所有人都目瞪口呆地看着叶南——这还是那个连作业都要抄的叶南吗?他怎么可能懂这么多?
赵磊脸上的笑意僵住了,嘴巴张得能塞进一个鸡蛋,完全不敢相信自己的耳朵。
李教授也愣了一下,推眼镜的动作顿在半空,他看了看手里的教案,又看了看叶南,眼神里充满了惊讶:“很好,回答得非常全面,甚至超出了课本的范围。那我再问你,针对Sigoid函数的梯度消失问题,在实际应用中,有哪些解决方案?”
这个问题更难了,属于深度学习的进阶内容,李教授本来是准备在这节课后半段讲的,没想到居然拿来问叶南。
所有人都觉得,叶南这次肯定答不上来了。
但叶南依旧从容不迫:“主要有三种解决方案。第一,使用残差网络(Res),通过shortcut连接,让梯度可以直接从后层传到前层,避免梯度在深层传播中逐渐衰减;第二,使用