线性代数（三）矩阵作为线性变换

在前两章中，我们建立了向量和向量空间的概念。如果说向量是空间中的"居民"，那么矩阵就是改变这个空间的"魔法"。今天我们要揭开矩阵的真面目：矩阵不是一堆数字排成的表格，而是一种对空间的变换方式。这个视角的转变，将彻底改变你对线性代数的理解。

从数字表格到空间变换：一次认知革命

打开任何一本传统的线性代数教材，矩阵通常是这样被介绍的：

A =

$$ "这是一个的矩阵，由 4 个元素组成。矩阵可以进行加法、数乘、乘法运算……"

这种介绍虽然正确，却像是只告诉你汽车有四个轮子和一个方向盘，却不告诉你汽车是用来代步的。你可能学会了矩阵乘法的计算规则，却完全不理解为什么要这样定义，为什么矩阵乘法不满足交换律，为什么矩阵只能与矩阵相乘。

现在，让我告诉你矩阵的真正含义。

矩阵是一个函数

矩阵本质上是一个函数（或者叫映射、变换）。它接收一个向量作为输入，输出另一个向量：

$输出输入$

你可以把矩阵想象成一台"向量加工机器"：把原料向量放进去，出来的是加工后的向量。

生活类比：复印机的缩放功能

想象一台复印机，它有一个"缩放"旋钮。当你设置为 150%时，复印出来的文件比原件大 1.5 倍；设置为 50%时，复印件缩小一半。这个缩放功能就是一种"变换"——它把原图像变成新图像。

矩阵做的事情类似，只不过更加丰富：它不仅能缩放，还能旋转、剪切、反射，甚至把三维物体"压扁"成二维图像（投影）。

不是所有变换都叫"线性变换"

矩阵代表的不是任意变换，而是一类特殊的变换——线性变换。

一个变换是线性的，当且仅当它满足两个条件：

条件一：加法保持性 $$

T( + ) = T() + T() $$

条件二：数乘保持性 $$

T(c) = cT() $$

这两个条件可以合并成一个更简洁的形式： $$

T(a + b) = aT() + bT() $$

几何上的理解

线性变换有三个显著的几何特征：

原点不动：。无论如何变换，原点永远在原点。
直线还是直线：变换前的直线，变换后仍然是直线（不会弯曲）。
平行线保持平行：两条平行线变换后仍然平行，间距可能变化但比例保持。

生活类比：拉伸橡皮膜

想象一块画着网格的橡皮膜钉在原点。你可以拉伸它、旋转它、倾斜它，但不能把它撕裂或折叠。这样的变换就是线性变换：网格线仍然是直的，平行的线仍然平行，原点仍然在原地。

反例：哪些不是线性变换？

平移：。平移会移动原点，所以不是线性变换。
弯曲：把直线变成曲线的变换不是线性的。
投影到曲面：比如把平面投影到球面。

矩阵的列：基向量的"目的地"

现在来看最关键的洞察：矩阵的列告诉我们基向量去了哪里。

标准基向量的命运决定一切

在二维空间中，标准基向量是：

任何向量都可以写成：

现在，如果我们知道线性变换把变成了，把变成了，那么会变成什么？

利用线性变换的性质： $$

T() = T(x_1 + y_2) = xT(_1) + yT(_2) = x_1' + y_2' $$

太神奇了！只要知道基向量的去向，就能算出任意向量的去向！

矩阵的列就是变换后的基向量

假设：

那么变换对应的矩阵就是： $$

A =

矩阵的第一列是变换后的位置，第二列是变换后的位置。

实例计算

假设变换后： - 变成了 - 变成了矩阵为： $$

A =

现在计算的像： $$

A =

= 2

3 = = $$

这正是线性组合的体现：新向量 = 2 倍的（新）+ 3 倍的（新）。

Q：为什么不是"行"而是"列"？

这是一个历史和约定的问题。之所以用列来存放变换后的基向量，是为了让矩阵乘向量的运算自然地表示为"线性组合"。如果向量写成列向量，那么的结果就是的各列按的分量加权求和。这种约定让矩阵乘法有了清晰的几何意义。

常见线性变换的矩阵表示

现在让我们来看几类最常见的线性变换，以及它们对应的矩阵。

旋转（ Rotation）

问题：逆时针旋转角的矩阵是什么？

推导：追踪基向量的去向。

在单位圆上对应角度。旋转后，角度变成，所以：在单位圆上对应角度（即）。旋转后，角度变成，所以：

因此，旋转矩阵为： $$

R() =

特例：

旋转：
旋转：
旋转（或）： 生活案例：游戏角色转向

在 2D 游戏中，当玩家按下方向键让角色转身时，程序需要旋转角色的朝向向量。如果角色原本面向（右方），玩家按下"向上"使其逆时针转，新的朝向就是：

R(90 °)

角色现在面向上方。

缩放（ Scaling）

问题：沿轴缩放倍、沿轴缩放倍的矩阵是什么？

推导： - 变成 - 变成缩放矩阵： $$

S(s_x, s_y) =

特例：

均匀缩放倍：
沿轴拉伸 2 倍：
沿轴压缩到一半： 生活案例：图片缩放

当你在图片编辑软件中调整图片大小时，软件实际上在对每个像素的坐标应用缩放变换。如果你把一张的图片缩小到，缩放因子是，每个像素会变成。

剪切（ Shear）

剪切变换是一种"倾斜"变换，它保持一个方向不变，但沿另一个方向"推"。

水平剪切（沿方向）：

这个变换保持坐标不变，但坐标增加。

垂直剪切（沿方向）：

生活案例：斜体字

当文字处理软件把正体字变成斜体时，使用的就是剪切变换。字母的底部保持不动，顶部向右倾斜。如果斜体角度是，剪切系数。

案例：风中的草

想象一片草地，草原本垂直向上生长。当风从右边吹来，草会向左倾斜，但根部（地面）不动。这就是剪切变换的效果：离地面越高的点，水平位移越大。

反射（ Reflection）

关于轴反射： - 不变 - 变成 关于轴反射：

关于原点反射（相当于旋转）：

关于直线反射：

这个矩阵交换和坐标，点变成。

关于任意直线反射：

通过推导（先旋转使直线与轴重合，关于轴反射，再旋转回来），可得：

生活案例：镜子中的自己

当你照镜子时，你看到的像是原物体关于镜面的反射。如果镜子是垂直的（沿轴），你的左手在像中变成了右手（坐标取反），但高度不变（坐标不变）。

投影（ Projection）

投影到轴： $$

P_x =

这把所有向量"压扁"到轴上：。

投影到轴： $$

P_y =

**投影到直线$ y = x $：$ $

P_{y=x} =

生活案例：影子

中午太阳在正上方时，你的影子就是你投影到地面（平面）的结果。如果把人简化为三维空间中的点集，影子就是每个点的坐标变成 0 后得到的图形。

变换矩阵总结表

变换类型	矩阵	效果
旋转		逆时针旋转
缩放		沿坐标轴缩放
水平剪切		水平方向倾斜
关于轴反射		上下翻转
关于轴反射		左右翻转
投影到轴		压扁到轴

矩阵乘法：变换的复合

连续变换的问题

假设我们要对一个向量先进行变换，再进行变换。结果是什么？

先应用：再应用：利用矩阵乘法的结合律：

结论：先后的复合变换对应矩阵（注意顺序！）。

为什么是而不是？

这是因为我们把向量写成列向量，矩阵乘向量是从右边乘的。表示先作用，表示再作用。按从内到外的顺序读，先后，对应的复合矩阵就是。

记忆口诀：矩阵乘法，从右往左读。意思是"先，再，最后"。

矩阵乘法的几何意义

矩阵的列是什么？

的第一列 = 作用在的第一列上 = 作用在" 变换后的"上

的第二列 = 作用在的第二列上 = 作用在" 变换后的"上

也就是说：复合变换的列，是把变换后的基向量再通过变换的结果。

实例：先旋转再缩放

设旋转的矩阵为： $$

R =

沿轴拉伸 2 倍的矩阵为： $$

S =

先旋转再缩放（）： $$

SR =

先缩放再旋转（）： $$

RS =

！矩阵乘法不满足交换律。

几何解释：

先旋转再缩放：正方形先转，变成菱形姿态，然后沿轴拉伸。
先缩放再旋转：正方形先沿轴拉伸成长方形，然后整个长方形转。

最终形状不同！

矩阵乘法的结合律

虽然矩阵乘法不满足交换律，但它满足结合律：

几何解释：无论你怎么分组，最终执行的变换序列是一样的。和都表示"先，再，最后"。

形式证明：

对于任意向量：

由于这对所有成立，所以。

结合律的实用意义：

当你需要对大量向量（比如一百万个像素点）应用同一系列变换时，可以先把所有变换矩阵乘起来得到一个总矩阵，然后用这个总矩阵一次性变换所有向量。这比逐个应用变换快得多。

例如：在 3D 游戏中，一个物体可能需要： 1. 缩放（） 2. 旋转（） 3. 平移（用齐次坐标处理）

与其对每个顶点分别应用三次变换，不如先算出（注意顺序），然后对每个顶点只做一次乘法。

图像变换实战案例

让我们用 Python 来实际操作图像变换。

案例一：旋转一张图片

import numpy as np
import matplotlib.pyplot as plt
from PIL import Image

def rotate_image(image, angle_degrees):
    """旋转图像（逆时针）"""
    angle = np.radians(angle_degrees)
    
    # 旋转矩阵
    R = np.array([
        [np.cos(angle), -np.sin(angle)],
        [np.sin(angle),  np.cos(angle)]
    ])
    
    h, w = image.shape[:2]
    center = np.array([w/2, h/2])
    
    # 创建输出图像
    output = np.zeros_like(image)
    
    for y in range(h):
        for x in range(w):
            # 相对于中心的坐标
            pos = np.array([x, y]) - center
            # 逆变换找源坐标
            src_pos = np.linalg.inv(R) @ pos + center
            src_x, src_y = int(src_pos[0]), int(src_pos[1])
            
            if 0 <= src_x < w and 0 <= src_y < h:
                output[y, x] = image[src_y, src_x]
    
    return output

# 使用示例
# img = np.array(Image.open('photo.jpg'))
# rotated = rotate_image(img, 45)
# plt.imshow(rotated)

关键点：在图像变换中，我们通常使用"逆向映射"——对于输出图像的每个像素，计算它在原图中对应的位置，然后取该位置的颜色。这避免了正向映射可能导致的空洞。

案例二：实时 2D 游戏变换

import numpy as np

class Transform2D:
    """2D 游戏物体的变换类"""
    
    def __init__(self):
        self.position = np.array([0.0, 0.0])
        self.rotation = 0.0  # 弧度
        self.scale = np.array([1.0, 1.0])
    
    def get_matrix(self):
        """获取组合变换矩阵（ 3x3 齐次坐标）"""
        # 缩放矩阵
        S = np.array([
            [self.scale[0], 0, 0],
            [0, self.scale[1], 0],
            [0, 0, 1]
        ])
        
        # 旋转矩阵
        c, s = np.cos(self.rotation), np.sin(self.rotation)
        R = np.array([
            [c, -s, 0],
            [s,  c, 0],
            [0,  0, 1]
        ])
        
        # 平移矩阵
        T = np.array([
            [1, 0, self.position[0]],
            [0, 1, self.position[1]],
            [0, 0, 1]
        ])
        
        # 组合：先缩放，再旋转，最后平移
        return T @ R @ S
    
    def transform_point(self, point):
        """变换一个点"""
        p = np.array([point[0], point[1], 1])
        result = self.get_matrix() @ p
        return result[:2]
    
    def transform_points(self, points):
        """批量变换多个点"""
        # 转换为齐次坐标
        n = len(points)
        homogeneous = np.ones((3, n))
        homogeneous[:2, :] = np.array(points).T
        
        # 一次性变换所有点
        result = self.get_matrix() @ homogeneous
        return result[:2, :].T

# 使用示例
transform = Transform2D()
transform.position = np.array([100, 50])
transform.rotation = np.pi / 4  # 45 度
transform.scale = np.array([2.0, 1.5])

# 变换一个正方形的四个顶点
square = [[-1, -1], [1, -1], [1, 1], [-1, 1]]
transformed_square = transform.transform_points(square)
print(transformed_square)

案例三：图像剪切效果

def shear_image(image, shear_x=0, shear_y=0):
    """对图像应用剪切变换"""
    h, w = image.shape[:2]
    
    # 剪切矩阵
    shear_matrix = np.array([
        [1, shear_x],
        [shear_y, 1]
    ])
    
    # 计算输出尺寸
    corners = np.array([[0, 0], [w, 0], [w, h], [0, h]]).T
    new_corners = shear_matrix @ corners
    
    min_x, max_x = new_corners[0].min(), new_corners[0].max()
    min_y, max_y = new_corners[1].min(), new_corners[1].max()
    
    new_w = int(max_x - min_x)
    new_h = int(max_y - min_y)
    
    output = np.zeros((new_h, new_w, *image.shape[2:]), dtype=image.dtype)
    
    inv_shear = np.linalg.inv(shear_matrix)
    
    for y in range(new_h):
        for x in range(new_w):
            src = inv_shear @ np.array([x + min_x, y + min_y])
            src_x, src_y = int(src[0]), int(src[1])
            
            if 0 <= src_x < w and 0 <= src_y < h:
                output[y, x] = image[src_y, src_x]
    
    return output

三维空间中的变换

以上讨论的都是二维变换，但同样的思想可以推广到三维（以及更高维）。

三维旋转矩阵

绕轴旋转： $$

R_z() =

绕轴旋转： $$

R_x() =

绕轴旋转： $$

R_y() =

三维缩放矩阵

S(s_x, s_y, s_z) =

投影到平面

正交投影到平面（丢弃坐标）： $$

P_{xy} =

透视投影（用于 3D 图形渲染）更加复杂，涉及齐次坐标和非线性变换，这里不详细展开。

逆矩阵：撤销变换

什么是逆矩阵？

如果矩阵代表一个变换，那么逆矩阵 代表"撤销"这个变换： $$

A^{-1}A = AA^{-1} = I $$

其中是单位矩阵，代表"什么都不做"的变换。

例子： - 旋转的逆是旋转： - 缩放的逆是缩放（前提是） - 反射的逆是它自己：反射两次回到原位

什么时候矩阵有逆？

不是所有变换都能撤销。

例子：投影到轴的矩阵没有逆矩阵。因为投影把所有点都压扁到一条线上，信息丢失了。和都变成了，无法区分它们原本是谁。

可逆的条件：

变换可逆变换不会"降维" 行列式关于行列式，我们将在下一章详细讨论。

矩阵的逆的公式

对于，如果$ ad - bc $，则：$ $

A^{-1} =

其中就是矩阵的行列式。

线性变换的核（ Kernel）与像（ Image）

核：被变换到原点的向量集合

变换的核（或零空间）定义为： $Extra close brace or missing open brace\ker(T) = \{\ \vec{v} : T(\vec{v}) = \vec{0}\ }$

例子：投影到轴的核是轴（所有轴上的点都被投影到原点）。

像：所有输出向量的集合

变换的像（或值域）定义为： $Extra close brace or missing open brace\text{Im}(T) = \{\ T(\vec{v}) : \vec{v} \in \text{定义域}\ }$

例子：投影到轴的像是轴本身。

秩-零化度定理

$定义域$

这告诉我们：如果一个变换"压扁"了一些维度（核不只有零向量），那么它的像的维度就会相应减少。

常见问题解答

Q1：平移是线性变换吗？

不是。平移会移动原点：。在计算机图形学中，为了用矩阵表示平移，我们引入齐次坐标，把二维向量表示为三维向量，这样平移就可以用矩阵表示了。

Q2：为什么矩阵乘法要这样定义？

矩阵乘法的定义正是为了让"矩阵的乘积"对应"变换的复合"。如果代表变换，代表变换，那么就代表"先后"的复合变换。乘法规则是从这个目标倒推出来的。

Q3：旋转矩阵为什么这么特殊？

旋转矩阵保持长度和角度不变（是正交变换），而且行列式为 1（保持方向，不反射）。这类矩阵构成群（二维特殊正交群），有很好的数学性质。

Q4：实际应用中，变换是怎么组合的？

在游戏引擎或图形软件中，通常的顺序是：缩放 → 旋转 → 平移。这被称为"TRS"顺序（ Transform = Translate × Rotate × Scale）。注意因为矩阵从右往左作用，所以在矩阵乘法中是先写，再写，最后写。

练习题

基础题

第 1 题：矩阵代表什么几何变换？画出单位正方形变换前后的图形。

第 2 题：写出关于轴反射的矩阵。验证它把点变换到了正确的位置。

第 3 题：计算旋转矩阵的平方，验证它等于。

第 4 题：矩阵是什么变换？把单位正方形的四个顶点变换后画出来。

第 5 题：证明恒等变换对任意向量都有。

进阶题

第 6 题：找一个矩阵，使得先关于轴反射，再逆时针旋转。

第 7 题：证明旋转矩阵的逆矩阵是，即。

第 8 题：证明如果和都是可逆矩阵，则。（提示：验证）

第 9 题：设，计算。你发现了什么规律？

第 10 题：证明：如果矩阵满足，则是它自己的逆矩阵。举出三个这样的矩阵（除了和）。

第 11 题：设是旋转的矩阵，是均匀缩放倍的矩阵。证明（这两个变换可以交换顺序）。解释其几何原因。

证明题

第 12 题：证明矩阵乘法满足结合律。（提示：用分量形式证明两边相等）

第 13 题：证明如果是线性变换，则把原点映射到原点：。

第 14 题：证明两个线性变换的复合仍是线性变换。即，如果和都是线性的，则也是线性的。

第 15 题：证明旋转矩阵满足，其中是转置。这说明旋转矩阵是正交矩阵。

编程题

第 16 题：用 Python 编写一个函数，输入一个矩阵，输出它对单位正方形的变换效果图（用 matplotlib 画出变换前后的正方形）。

第 17 题：实现一个动画，展示向量随着旋转角度从到变化时的运动轨迹。

第 18 题：编写一个图像旋转函数，支持任意角度旋转，并使用双线性插值来避免锯齿。

第 19 题：实现一个简单的 2D 粒子系统，每个粒子有位置、速度、旋转角度、大小。使用矩阵变换来更新和渲染粒子。

第 20 题：实现一个交互式程序，让用户通过滑块调整旋转角度、缩放因子、剪切系数，实时显示一张图片的变换效果。

思考题

第 21 题：为什么计算机图形学中要使用矩阵来表示 3D 变换，而不是矩阵？

第 22 题：在机器学习中，神经网络的每一层都可以看作一个线性变换（矩阵乘法）加上一个非线性激活函数。为什么需要非线性激活函数？如果没有它，多层神经网络会怎样？

第 23 题：卫星图像通常需要经过几何校正才能使用。这个校正过程涉及到哪些类型的变换？为什么简单的线性变换可能不够？

本章总结

本章我们揭示了矩阵的真正面目：矩阵是线性变换的表示。

核心概念： 1. 矩阵是一个函数，把向量变换为$A $线性变换保持加法和数乘，几何上表现为保持原点、直线、平行线矩阵的列是变换后的基向量常见变换包括旋转、缩放、剪切、反射、投影矩阵乘法$ BA$ 表示先应用再应用$B $矩阵乘法满足结合律但不满足交换律逆矩阵$ A^{-1}$ 撤销变换的效果

为什么这个视角重要： - 它解释了矩阵乘法规则的来源 - 它让我们能够"看到"矩阵做了什么 - 它是计算机图形学、物理学、机器学习等领域的基础

下一章预告：《行列式的秘密》——我们将看到行列式如何测量变换对面积/体积的影响，以及它为什么能判断矩阵是否可逆。

本文是《线性代数的本质与应用》系列的第 3 章。

从数字表格到空间变换：一次认知革命

矩阵是一个函数

不是所有变换都叫"线性变换"

矩阵的列：基向量的"目的地"

标准基向量的命运决定一切

矩阵的列就是变换后的基向量

实例计算

常见线性变换的矩阵表示

旋转（ Rotation）

缩放（ Scaling）

剪切（ Shear）

反射（ Reflection）

投影（ Projection）

变换矩阵总结表

矩阵乘法：变换的复合

连续变换的问题

为什么是 而不是？

矩阵乘法的几何意义

实例：先旋转再缩放

矩阵乘法的结合律

图像变换实战案例

案例一：旋转一张图片

案例二：实时 2D 游戏变换

案例三：图像剪切效果

三维空间中的变换

三维旋转矩阵

三维缩放矩阵

投影到平面

逆矩阵：撤销变换

什么是逆矩阵？

什么时候矩阵有逆？

矩阵的逆的公式

线性变换的核（ Kernel）与像（ Image）

核：被变换到原点的向量集合

像：所有输出向量的集合

秩-零化度定理

常见问题解答

练习题

基础题

进阶题

证明题

编程题

思考题

本章总结

下一章预告：《行列式的秘密》——我们将看到行列式如何测量变换对面积/体积的影响，以及它为什么能判断矩阵是否可逆。

为什么是而不是？