H.265/HEVC编码实战：如何用Python实现简单的视频压缩（附代码）

最新推荐文章于 2026-06-25 18:43:47 发布

原创

最新推荐文章于 2026-06-25 18:43:47 发布 · 841 阅读

标签

#H.265 #视频编码 #Python #图像处理

从零实现H.265核心：用Python手搓一个简易视频编码器

最近在折腾一些视频处理的项目，发现很多开发者对H.265/HEVC的原理说起来头头是道，但真要自己动手实现哪怕最基础的部分，往往就卡住了。网上的资料要么是过于学术化的公式推导，要么是直接调用x265库的“黑盒”教程，中间缺少了那个关键的“自己动手”环节。这就像学开车，光知道发动机原理和交通规则，从来没摸过方向盘，终究是纸上谈兵。

这篇文章就是为你准备的，如果你已经了解H.265的大致框架——比如知道它分帧内预测、帧间预测、变换量化这些模块——但想亲手用代码把这些模块“串”起来，看看一个原始的像素矩阵是如何一步步被压缩成数据的，那么接下来的内容会非常对胃口。我们将完全从零开始，不依赖任何成熟的编码库（如FFmpeg的libx265），只用Python和基础的NumPy，尝试构建一个极度简化但五脏俱全的H.265编码流程演示。我们的目标不是造一个能用的编码器，而是通过代码这个“显微镜”，看清编码原理的血肉。你会发现，亲手实现一遍，比读十篇原理文章的理解都要深刻。

1. 环境准备与基础概念重塑

在开始写代码之前，我们需要搭建一个纯净的实验环境，并重新梳理几个关键概念，确保我们的“手搓”之旅有一个稳固的起点。

首先，创建一个新的Python虚拟环境是个好习惯，它能避免包版本冲突。这里我们用venv：

python -m venv hevc_lab
source hevc_lab/bin/activate  # Linux/macOS
# 或者 hevc_lab\Scripts\activate  # Windows

接着，安装我们唯一的核心依赖：NumPy。它将负责所有的矩阵运算。

pip install numpy

注意：为了极致简化，我们不会使用OpenCV来读写视频文件。我们将直接以二维NumPy数组来模拟“图像”，这能让我们更专注于算法本身，而非文件格式解析。

现在，让我们重新审视H.265编码的“单元”。在标准中，基本处理单元是编码树单元（CTU），大小可以是64x64、32x32或16x16。为了演示方便，我们将整个“图像”定义得非常小，比如一个8x8的灰度像素块（值范围0-255）。这足以说明所有原理。

我们来初始化一个“原始图像”块和一个用于预测的“参考图像”块：

import numpy as np

# 模拟一个8x8的原始图像块（亮度分量）
original_block = np.array([
    [52, 55, 61, 66, 70, 61, 64, 73],
    [62, 59, 55, 90, 109, 85, 69, 72],
    [63, 59, 56, 80, 103, 121, 88, 79],
    [63, 58, 71, 122, 154, 136, 108, 104],
    [67, 61, 68, 104, 126, 111, 106, 95],
    [79, 65, 60, 70, 77, 68, 58, 55],
    [85, 71, 64, 59, 55, 61, 65, 83],
    [87, 79, 69, 68, 65, 76, 78, 94]
], dtype=np.float32)  # 使用float32便于计算

# 模拟一个前一帧的参考块（用于帧间预测）
reference_block = original_block - 10 + np.random.randn(8, 8) * 3  # 加入一些噪声和整体偏移
reference_block = np.clip(reference_block, 0, 255).astype(np.float32)

print("原始块 (左上角4x4):\n", original_block[:4, :4])
print("\n参考块 (左上角4x4):\n", reference_block[:4, :4])

这个original_block的数据来源于经典的图像处理测试矩阵。有了数据，我们的编码之旅就可以正式开始了。整个流程可以概括为：预测 -> 求残差 -> 变换 -> 量化。下面，我们就分步拆解。

2. 实现核心预测模块：帧内与帧间

预测的目的是利用数据的空间或时间冗余，用一个“猜测值”来替代原始像素。猜得越准，后续需要编码的“误差”（残差）就越小，压缩率就越高。

2.1 帧内预测：利用空间相关性

帧内预测根据同一帧内已编码的相邻像素（通常位于当前块的上方和左侧）来预测当前块内部的像素。H.265支持多达35种帧内预测模式（33个方向性模式+DC+Planar）。为了简化，我们实现最基础的两种：

模式0（垂直预测）：当前块每一列的像素值，都用它正上方那一行的相邻像素值来填充。
模式1（水平预测）：当前块每一行的像素值，都用它左侧那一列的相邻像素值来填充。

假设我们块的上方相邻行（top_row）和左侧相邻列（left_col）是可用的（在编码器中，这些来自已编码重建的区域）。

def intra_prediction_vertical(block_size, top_row):
    """
    垂直预测模式
    :param block_size: 块大小，如8
    :param top_row: 上方相邻行像素，形状应为 (block_size,)
    :return: 预测块
    """
    # 将top_row复制成block_size行
    pred_block = np.tile(top_row.reshape(1, -1), (block_size, 1))
    return p

最低0.47元/天解锁文章