机器学习:从基础到应用的全景解析

一、监督学习:让模型从标注数据中学习

1. 线性回归:建立变量间的线性关系

1.1 基础概念

线性回归是最基础的预测模型,通过建立自变量(特征)与因变量(目标)之间的线性方程进行预测。

数学表达

y = a₀ + a₁x₁ + a₂x₂ + ... + aₖxₖ
  • 示例:根据身高预测体重时,模型可能形如 体重 = 50 + 0.6×身高

1.2 损失函数与优化

均方误差 (MSE) 是衡量模型预测准确性的核心指标:

MSE = 1/n Σ(y_实际 - y_预测)²

通过梯度下降算法迭代优化参数,最小化损失函数。

梯度下降原理
如同下山时沿着坡度最陡的方向移动,算法通过计算损失函数的导数(梯度),反向调整参数值。

学习率 (η):控制参数更新的步长,过大易震荡,过小收敛慢。


梯度下降示意图

1.3 实际应用

情感分析案例
将文本转化为词频向量(如”喜欢”出现2次,”讨厌”出现0次),通过线性回归预测情感倾向(+1为正面,-1为负面)。

数据预处理技巧

  • 特征工程:加入BMI指数(体重/身高²)提升模型解释力
  • 标准化:将特征值缩放到均值为0、标准差为1的范围

2. 逻辑回归:处理二分类问题

2.1 概率视角

将线性回归输出通过Sigmoid函数映射到[0,1]区间,得到概率值:

P(y=1) = 1 / (1 + e^(-z))  
z = a₀ + a₁x₁ + ... + aₖxₖ


Sigmoid函数曲线

2.2 最大似然估计

通过最大化观测数据出现的概率来优化参数,损失函数为:

Loss = -Σ[y_i·log(p_i) + (1-y_i)·log(1-p_i)]

实际应用
罗切斯特大学研究使用逻辑回归预测学生宿舍兼容性,准确率达78%。

3. 支持向量机 (SVM):寻找最优分类边界

3.1 核心思想

寻找能最大程度区分不同类别的超平面,要求:

  • 间隔最大化:分类边界离两类样本尽可能远
  • 软间隔:允许少量样本分类错误,增强模型鲁棒性

3.2 铰链损失函数

通过max(0, 1 - y·f(x))构造损失函数,惩罚分类置信度不足的样本。


SVM分类边界示意图

二、无监督学习:发现数据内在结构

1. 聚类分析:分组相似数据

1.1 k-means算法

目标函数:最小化类内样本到聚类中心的距离平方和

Σ_{i=1}^k Σ_{x∈C_i} ||x - μ_i||²  
(μ_i为第i个聚类中心)

算法步骤

  1. 随机初始化k个聚类中心
  2. 迭代直到收敛:

    • 将每个样本分配到最近聚类中心
    • 重新计算聚类中心为该类样本均值


k-means迭代过程

肘部法则选择k值
观察损失随k变化的曲线,选择拐点处作为最佳k值。

1.2 应用案例

  • 手写数字识别:将8×8像素的MNIST数字图像聚类为0和1两类
  • 市场细分:根据用户行为数据划分消费者群体

2. 降维技术:简化数据结构

2.1 主成分分析 (PCA)

通过线性变换将高维数据投影到低维空间,保留最大方差方向。

数学本质
对数据协方差矩阵进行特征分解,取前k个最大特征值对应的特征向量作为主成分。

应用场景

  • 人脸识别:将4096维的人脸图像降至64维(Eigenfaces)
  • 文本分析:通过词频矩阵分解进行作者身份鉴定


PCA降维示意图

三、深度学习:多层神经网络的崛起

1. 神经网络基础

1.1 神经元结构

每个神经元接收输入信号,通过权重加权求和后经激活函数输出:

y = f(w₁x₁ + w₂x₂ + ... + wₙxₙ + b)
  • 常用激活函数

    • Sigmoid:σ(z) = 1/(1 + e⁻ᶻ)
    • ReLU:f(z) = max(0, z)

1.2 前向传播

以全连接神经网络为例:

h¹ = ReLU(W¹x + b¹)  
h² = ReLU(W²h¹ + b²)  
y = softmax(W³h² + b³)

1.3 反向传播

通过链式法则计算损失函数对各参数的梯度,逐层更新权重。

关键公式

∂Loss/∂W = ∂Loss/∂Output · ∂Output/∂h · ∂h/∂W

2. 卷积神经网络 (CNN)

2.1 卷积操作

通过滑动滤波器提取局部特征:

y[i,j] = ΣΣw[r,s]·x[i+r,j+s]

典型层结构

  • 卷积层:提取特征
  • 池化层:降维(如Max Pooling取局部最大值)
  • 全连接层:分类决策


CNN结构示意图

实际应用

  • 图像识别:CIFAR-10数据集分类
  • 目标检测:自动驾驶窗口检测特定模式

四、强化学习:与环境交互中学习

1. 马尔可夫决策过程 (MDP)

1.1 核心要素

  • 状态集 (S):所有可能的环境状态
  • 动作集 (A):智能体可执行的操作
  • 转移概率 P(s’|s,a):执行动作a后从状态s转移到s’的概率
  • 奖励函数 R(s,a,s’):即时奖励值

1.2 价值函数

状态价值函数V(s)表示从状态s出发能获得的最大期望回报:

V(s) = max_a ΣP(s'|s,a)[R + γV(s')]
  • 折扣因子 γ:平衡即时奖励与未来奖励

2. 价值迭代算法

通过动态更新各状态价值逼近最优解:

v_{k+1}(s) = max_a ΣP(s'|s,a)[R + γv_k(s')]

收敛性证明
每次迭代最大残余误差至少以γ速率衰减,最终收敛至最优价值函数。

3. Q学习:模型无关的强化学习

3.1 Q函数

定义状态-动作价值函数Q(s,a),表示在状态s执行动作a的期望回报。

3.2 探索与利用平衡

  • ε-greedy策略:以概率ε随机探索,以1-ε选择当前最优动作
  • 经验回放:存储历史经验随机采样更新,防止灾难性遗忘


Q学习示意图

实际应用

  • Atari游戏:DQN算法在49个游戏中达到人类水平
  • AlphaGo:结合蒙特卡洛树搜索与深度强化学习

五、数学基础:机器学习的底层支撑

1. 概率统计

1.1 中心极限定理

大量独立同分布变量的和趋近于正态分布,解释模型预测的不确定性。

1.2 贝叶斯定理

通过先验概率和观测数据更新后验概率:

P(θ|D) ∝ P(D|θ)·P(θ)

2. 线性代数

2.1 矩阵分解

  • SVD分解:将矩阵分解为UΣV^T,用于降维
  • 应用示例:用户-物品评分矩阵分解实现推荐系统


矩阵分解示意图

六、伦理考量与社会影响

1. 偏见与公平性

  • COMPAS案例:司法风险评估系统对非裔存在系统性偏见
  • 公平性定义

    • 人口统计均等:不同群体预测结果分布相同
    • 预测均等:不同群体的真阳性率/假阳性率相等

2. 预测局限性

  • 法官饥饿效应:看似存在的行为模式实为数据偏差
  • 脆弱家庭挑战:15年追踪数据仍无法准确预测关键结果

常见问题解答 (FAQ)

Q1: 线性回归和逻辑回归的区别是什么?

A:
线性回归预测连续值(如房价),逻辑回归用于二分类(如是否患病),通过Sigmoid函数将输出映射为概率。

Q2: 梯度下降如何避免局部最小值?

A:
实际中常用随机梯度下降(SGD)引入随机性,或采用动量法、Adam等优化算法改善收敛性。

Q3: 深度学习相比传统机器学习有何优势?

A:
多层非线性变换可拟合复杂函数,在图像、语音等高维数据上表现优异,但需要大量数据和计算资源。

Q4: 强化学习适用于哪些场景?

A:
适用于序列决策问题,如游戏AI(如AlphaGo)、机器人控制、自动驾驶等需要与环境交互的任务。