机器学习:从基础到应用的全景解析
一、监督学习:让模型从标注数据中学习
1. 线性回归:建立变量间的线性关系
1.1 基础概念
线性回归是最基础的预测模型,通过建立自变量(特征)与因变量(目标)之间的线性方程进行预测。
数学表达:
y = a₀ + a₁x₁ + a₂x₂ + ... + aₖxₖ
-
示例:根据身高预测体重时,模型可能形如 体重 = 50 + 0.6×身高
1.2 损失函数与优化
均方误差 (MSE) 是衡量模型预测准确性的核心指标:
MSE = 1/n Σ(y_实际 - y_预测)²
通过梯度下降算法迭代优化参数,最小化损失函数。
梯度下降原理:
如同下山时沿着坡度最陡的方向移动,算法通过计算损失函数的导数(梯度),反向调整参数值。
学习率 (η):控制参数更新的步长,过大易震荡,过小收敛慢。
1.3 实际应用
情感分析案例:
将文本转化为词频向量(如”喜欢”出现2次,”讨厌”出现0次),通过线性回归预测情感倾向(+1为正面,-1为负面)。
数据预处理技巧:
-
特征工程:加入BMI指数(体重/身高²)提升模型解释力 -
标准化:将特征值缩放到均值为0、标准差为1的范围
2. 逻辑回归:处理二分类问题
2.1 概率视角
将线性回归输出通过Sigmoid函数映射到[0,1]区间,得到概率值:
P(y=1) = 1 / (1 + e^(-z))
z = a₀ + a₁x₁ + ... + aₖxₖ
2.2 最大似然估计
通过最大化观测数据出现的概率来优化参数,损失函数为:
Loss = -Σ[y_i·log(p_i) + (1-y_i)·log(1-p_i)]
实际应用:
罗切斯特大学研究使用逻辑回归预测学生宿舍兼容性,准确率达78%。
3. 支持向量机 (SVM):寻找最优分类边界
3.1 核心思想
寻找能最大程度区分不同类别的超平面,要求:
-
间隔最大化:分类边界离两类样本尽可能远 -
软间隔:允许少量样本分类错误,增强模型鲁棒性
3.2 铰链损失函数
通过max(0, 1 - y·f(x))
构造损失函数,惩罚分类置信度不足的样本。
二、无监督学习:发现数据内在结构
1. 聚类分析:分组相似数据
1.1 k-means算法
目标函数:最小化类内样本到聚类中心的距离平方和
Σ_{i=1}^k Σ_{x∈C_i} ||x - μ_i||²
(μ_i为第i个聚类中心)
算法步骤:
-
随机初始化k个聚类中心 -
迭代直到收敛: -
将每个样本分配到最近聚类中心 -
重新计算聚类中心为该类样本均值
-
肘部法则选择k值:
观察损失随k变化的曲线,选择拐点处作为最佳k值。
1.2 应用案例
-
手写数字识别:将8×8像素的MNIST数字图像聚类为0和1两类 -
市场细分:根据用户行为数据划分消费者群体
2. 降维技术:简化数据结构
2.1 主成分分析 (PCA)
通过线性变换将高维数据投影到低维空间,保留最大方差方向。
数学本质:
对数据协方差矩阵进行特征分解,取前k个最大特征值对应的特征向量作为主成分。
应用场景:
-
人脸识别:将4096维的人脸图像降至64维(Eigenfaces) -
文本分析:通过词频矩阵分解进行作者身份鉴定
三、深度学习:多层神经网络的崛起
1. 神经网络基础
1.1 神经元结构
每个神经元接收输入信号,通过权重加权求和后经激活函数输出:
y = f(w₁x₁ + w₂x₂ + ... + wₙxₙ + b)
-
常用激活函数: -
Sigmoid:σ(z) = 1/(1 + e⁻ᶻ) -
ReLU:f(z) = max(0, z)
-
1.2 前向传播
以全连接神经网络为例:
h¹ = ReLU(W¹x + b¹)
h² = ReLU(W²h¹ + b²)
y = softmax(W³h² + b³)
1.3 反向传播
通过链式法则计算损失函数对各参数的梯度,逐层更新权重。
关键公式:
∂Loss/∂W = ∂Loss/∂Output · ∂Output/∂h · ∂h/∂W
2. 卷积神经网络 (CNN)
2.1 卷积操作
通过滑动滤波器提取局部特征:
y[i,j] = ΣΣw[r,s]·x[i+r,j+s]
典型层结构:
-
卷积层:提取特征 -
池化层:降维(如Max Pooling取局部最大值) -
全连接层:分类决策
实际应用:
-
图像识别:CIFAR-10数据集分类 -
目标检测:自动驾驶窗口检测特定模式
四、强化学习:与环境交互中学习
1. 马尔可夫决策过程 (MDP)
1.1 核心要素
-
状态集 (S):所有可能的环境状态 -
动作集 (A):智能体可执行的操作 -
转移概率 P(s’|s,a):执行动作a后从状态s转移到s’的概率 -
奖励函数 R(s,a,s’):即时奖励值
1.2 价值函数
状态价值函数V(s)表示从状态s出发能获得的最大期望回报:
V(s) = max_a ΣP(s'|s,a)[R + γV(s')]
-
折扣因子 γ:平衡即时奖励与未来奖励
2. 价值迭代算法
通过动态更新各状态价值逼近最优解:
v_{k+1}(s) = max_a ΣP(s'|s,a)[R + γv_k(s')]
收敛性证明:
每次迭代最大残余误差至少以γ速率衰减,最终收敛至最优价值函数。
3. Q学习:模型无关的强化学习
3.1 Q函数
定义状态-动作价值函数Q(s,a),表示在状态s执行动作a的期望回报。
3.2 探索与利用平衡
-
ε-greedy策略:以概率ε随机探索,以1-ε选择当前最优动作 -
经验回放:存储历史经验随机采样更新,防止灾难性遗忘
实际应用:
-
Atari游戏:DQN算法在49个游戏中达到人类水平 -
AlphaGo:结合蒙特卡洛树搜索与深度强化学习
五、数学基础:机器学习的底层支撑
1. 概率统计
1.1 中心极限定理
大量独立同分布变量的和趋近于正态分布,解释模型预测的不确定性。
1.2 贝叶斯定理
通过先验概率和观测数据更新后验概率:
P(θ|D) ∝ P(D|θ)·P(θ)
2. 线性代数
2.1 矩阵分解
-
SVD分解:将矩阵分解为UΣV^T,用于降维 -
应用示例:用户-物品评分矩阵分解实现推荐系统
六、伦理考量与社会影响
1. 偏见与公平性
-
COMPAS案例:司法风险评估系统对非裔存在系统性偏见 -
公平性定义: -
人口统计均等:不同群体预测结果分布相同 -
预测均等:不同群体的真阳性率/假阳性率相等
-
2. 预测局限性
-
法官饥饿效应:看似存在的行为模式实为数据偏差 -
脆弱家庭挑战:15年追踪数据仍无法准确预测关键结果
常见问题解答 (FAQ)
Q1: 线性回归和逻辑回归的区别是什么?
A:
线性回归预测连续值(如房价),逻辑回归用于二分类(如是否患病),通过Sigmoid函数将输出映射为概率。
Q2: 梯度下降如何避免局部最小值?
A:
实际中常用随机梯度下降(SGD)引入随机性,或采用动量法、Adam等优化算法改善收敛性。
Q3: 深度学习相比传统机器学习有何优势?
A:
多层非线性变换可拟合复杂函数,在图像、语音等高维数据上表现优异,但需要大量数据和计算资源。
Q4: 强化学习适用于哪些场景?
A:
适用于序列决策问题,如游戏AI(如AlphaGo)、机器人控制、自动驾驶等需要与环境交互的任务。