神经网络导论

神经网络是一种受生物大脑神经元连接方式启发的 机器学习模型，核心功能是通过多层非线性变换从数据中学习规律，实现预测、分类、模式识别等任务。

一、核心组成单元

1. 神经元(Neuron)

神经网络的基本计算单元，接收输入信号，通过激活函数处理后输出结果。神经元有几个重要的组成部分分别是输入，权重（Weight），偏置（Bias），激活函数（Activation Function）。下面是关于他们的介绍

输入(input)：多个特征值（如图像的像素值、文本的词向量）。
权重(Weight)：每个输入对应一个权重，代表该特征的重要性。
偏置(Bias)：调节神经元输出的常数项，类似线性方程中的截距。
激活函数（Activation Function）：对加权求和结果进行非线性转换，使网络能学习复杂关系（如 $ReLU$、$Sigmoid$ 等）。
用公式来说神经网络中主要发生了这样的过程，首先假设一个向量 $\vec{w}$ 这个代表的是这个节点的权重 $\vec{x}$ 代表的是输入的数据，$b$ 是偏置。令 $z=\vec{w}\cdot\vec{x}+b$ 然后激活函数我们令其为 $g(z)$ 我们在这个过程中所干的事情就是先计算出 $z$ 然后将其带入激活函数，得到一个值。这就是神经元的输出

2.层(layer)

就是神经元按照层级排列的结构，主要分为三类

输入层（Input Layer）：接收原始数据，无计算过程。
隐藏层（Hidden Layer）：位于输入层和输出层之间，负责特征提取和转换，层数和神经元数量决定网络复杂度。
输出层（Output Layer）：输出最终结果，如分类任务的类别概率、回归任务的预测值。

二、神经网络的工作原理

1.前向传播(Forward Propagation)

这个过程就是一个信号从输入层流入，经隐藏层逐层计算，最终从输出层得到预测结果的过程。每个神经元的结果是一个标量，我们通过这个神经网络层得到的是一个向量。最后结果出来后我们带入 损失函数(Loss Function) 进行计算

2.反向传播(Backward propagation)

反向传播的最大用处一般是用于高效计算导数，然后通过梯度下降来训练模型，用公式表达出就是这样的。

$$
(\frac{\partial J}{\partial \hat{y}} \rightarrow \frac{\partial J}{\partial z_2} \rightarrow \frac{\partial J}{\partial W_2}、\frac{\partial J}{\partial b_2} \rightarrow \frac{\partial J}{\partial a_1} \rightarrow \frac{\partial J}{\partial z_1} \rightarrow \frac{\partial J}{\partial W_1}、\frac{\partial J}{\partial b_1})
$$

反向传播通过链式法则和计算图实现高效的导数计算：

链式法则：将复杂函数的导数分解为多个简单函数的导数乘积。例如，若 $J = f(a)$ 且 $a = g(z)$ 且 $z = h(w)$，则 $$\frac{\partial J}{\partial w} = \frac{\partial J}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial w}$$
反向遍历计算图：从损失函数 J 开始，沿计算图反向（从输出层到输入层）逐层计算导数，每一步只需要前一层的导数结果和当前层的局部导数（如激活函数的导数、矩阵乘法的导数）。

这种方式避免了冗余计算，将导数计算的时间复杂度从参数数量的三次方降至线性，使深层网络的训练成为可能。

三、常用的激活函数(Activation Function)成本函数(Cost Function)

激活函数是神经网络中神经元的 “决策函数”，对输入的加权和进行非线性变换，使模型能够学习复杂的非线性关系。没有激活函数，多层神经网络会退化为线性模型（等价于单层感知机）。

一、常用的成本函数(Cost Function)

首先先明确一下 损失函数(Loss Function) 与 成本函数(Cost Function) 之间的关系与区别。

损失函数（Loss Function）：通常指单个样本的误差，公式为 $L(\hat{y}_i, y_i) = (\hat{y}_i - y_i)^2$ 用于衡量模型对单个样本的预测误差。
成本函数（Cost Function）：通常指整个训练集的平均误差，它是所有样本损失的平均值，用于衡量模型在整个训练集上的整体表现。
体现在公式上就是

$$
J(\hat{y},y)=\frac{1}{n}\sum_{i=1}^{n}{L(\hat{y_i},y_i)}
$$