14、超椭圆曲线密码系统中雅可比计算的硬件导向算法

最新推荐文章于 2026-03-01 15:36:25 发布

原创最新推荐文章于 2026-03-01 15:36:25 发布 · 1.1k 阅读

18 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#超椭圆曲线密码系统 # 雅可比计算 # 硬件实现

超椭圆曲线密码系统中雅可比计算的硬件导向算法

1. 引言

超椭圆曲线密码系统是密码学领域的一个重要研究方向。Koblitz对定义在有限域上的超椭圆曲线的雅可比进行了研究，并提出了超椭圆曲线密码系统。不过，Frey指出Koblitz的超椭圆密码系统的离散对数问题可以在亚指数时间内求解。随后，Sakai、Sakurai、Ishizuka以及Smart等人研究了超椭圆曲线的雅可比，找到了能抵御所有已知攻击的雅可比。

超椭圆曲线雅可比中的加法显式公式由Cantor和Koblitz引入。虽然雅可比中的加法公式比椭圆曲线上点的加法公式更复杂，但如果超椭圆曲线雅可比的阶与椭圆曲线上点的阶大小相同，那么雅可比的基域比椭圆曲线的基域小，这对硬件实现是一个有利的特性。而且，公式中使用的多项式乘法运算可以通过并行处理硬件有效地执行。

本文的目标是研究如何通过硬件手段有效地实现超椭圆曲线密码系统。具体步骤如下：
1. 解释基于Cantor和Koblitz算法的算法，并从硬件角度讨论乘法运算的数量。
2. 描述逻辑设计和综合的结果，使用0.27 - um CMOS门阵列技术来估计硬件的大小和速度。
3. 分析硬件效率对曲线亏格的依赖性，并将结果与RSA和椭圆曲线密码系统进行比较。

2. 预备知识

设 (K) 是一个域，(\overline{K}) 表示其代数闭包。我们将亏格为 (g) 的超椭圆曲线 (C) 定义为 (y^{2}+h(x)y = f(x)) 的形式，其中 (h(x)) 是次数至多为 (g) 的多项式，(f(x)) 是次数为 (2g + 1) 的首一多项式。本文主要关注特征为2的有限域。

点 (P(x,y)) 生成除子的自由群。除子 (D) 是 (K) - 点的有限形式和 (D=\sum m_{i}P_{i})，(m_{i}\in Z)。我们定义 (D) 的次数为 (\text{deg}(D)=\sum m_{i})。除子形成一个加法群，其中次数为0的除子构成子群 (D_{0})。

有理函数 (r) 在 (C) 上有有限个零点和极点。我们将 (r) 与其除子 ((r)=\sum m_{i}P_{i}) 关联起来，其中 (P_{i}) 是具有重数 (m_{i}) 的极点或零点。非零函数的除子，如 ((r))，称为主除子。主除子构成 (D_{0}) 的一个子群。雅可比簇定义为商群 (J_{C}(K)=D_{0}/P)。

设 (F_{q}) 是具有 (q) 个元素的有限域。(J_{C}(F_{q}^{n})) 的离散对数问题是：给定定义在 (F_{q}^{n}) 上的两个除子 (D_{1}) 和 (D_{2})，确定一个整数 (m)，使得 (D_{2}=mD_{1})（如果这样的 (m) 存在）。

3. 提出的算法

3.1 雅可比中的计算

雅可比簇的元素可以由约化除子唯一表示。任何约化除子都可以看作是一对多项式 ((a,b))，满足 (\text{deg}b<\text{deg}a) 且 (\text{deg}a\leq g)。下面简要描述Cantor和Koblitz提出的加法算法 (D_{3}=D_{1}+D_{2})，其中 (D_{3}=\text{div}(a_{3},b_{3}))，(D_{2}=\text{div}(a_{2},b_{2}))，(D_{1}=\text{div}(a_{1},b_{1}))。

计算最大公因子（GCD） ：
- 计算多项式 (a_{1}) 和 (a_{2}) 的最大公因子。当基域 (K) 很大且 (a_{1}) 和 (a_{2}) 是雅可比中随机选择的两个元素的坐标时，(\gcd(a_{1},a_{2}) = 1) 的情况极有可能发生。本文仅研究 (\gcd(a_{1},a_{2}) = 1) 和 (D_{1}=D_{2})（加倍）的情况，其他情况假设由软件在硬件的协助下处理。
- 使用扩展欧几里得算法计算 (d = \gcd(a_{1},a_{2})) 以及两个多项式 (s_{1}) 和 (s_{2})，满足 (s_{1}a_{1}+s_{2}a_{2}=d)。为方便起见，将 (s_{1}) 和 (s_{2}) 除以 (d)，以满足 (s_{1}a_{1}+s_{2}a_{2}=1)。

扩展欧几里得算法也用于从里德 - 所罗门码解码中的 syndrome 计算错误定位和评估多项式。里德 - 所罗门码是一种强大的纠错码，广泛应用于存储设备和通信中，并且经常通过硬件手段实现。不过，里德 - 所罗门码解码只需要 (s_{1}) 和 (s_{2}) 中的一个，而雅可比中的加法需要 (s_{1}) 和 (s_{2}) 两个。

亏格为 (g) 的超椭圆曲线雅可比加法的硬件由四个寄存器组组成：(U_{reg})、(X_{reg})、(Y_{reg}) 和 (Z_{reg})。(U_{reg}) 和 (X_{reg}) 有 ((g + 1)) 个寄存器用于存储次数为 (g) 的多项式的系数，而 (Y_{reg}) 和 (Z_{reg}) 有 (g) 个寄存器用于存储次数为 ((g - 1)) 的多项式的系数。在 (U_{reg}) 和 (Y_{reg}) 的每个寄存器中放置一个伽罗瓦域乘法器，电路中的求逆运算符中也放置一个。电路总共包含 ((4g + 2)) 个系数寄存器、((2g + 1)) 个伽罗瓦域乘法器和一个求逆运算符。

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A([开始]):::startend --> B(计算GCD):::process
    B --> C(选择算法):::process
    C -->|加法| D(执行加法算法):::process
    C -->|加倍| E(执行加倍算法):::process
    D --> F([结束]):::startend
    E --> F

当 (a_{1}) 和 (a_{2}) 互质时，加法算法如下：

算法1（加法）

输入: a1, a2, b1, b2, s1, s2
输出: a’, b’
步骤A1: a3 = a1 * a2
步骤A2: b3 = (s1 * a1 * b2 + s2 * a2 * b1) mod a3
步骤A3: a4 = (f + b3 + b3^2) / a3
步骤A4: a4 = a4 / (leading coefficient of a4)
步骤A5: b4 = (b3 + 1) mod a4
步骤A6: a’ = a4; b’ = b4;
步骤A7: while(deg a4 > g)
    步骤A7.1: a5 = (f + b4 + b4^2) / a4
    步骤A7.2: a5 = a5 / (leading coefficient of a5)
    步骤A7.3: b5 = (b4 + 1) mod a5
    步骤A7.4: a’ = a5; b’ = b5;
    步骤A7.5: a4 = a5; b4 = b5;
返回 [a’, b’]

各步骤的乘法运算数量如下：
|步骤|乘法运算数量|
| ---- | ---- |
|步骤A1| ((13g^{2}-12g + 2)) 次域乘法|
|步骤A2| ((16g^{2}-14g + 3)) 次域乘法|
|步骤A3（亏格3曲线迭代1次，亏格6曲线迭代2次）| - |

为了减少计算量，引入多项式 (q(x)=s_{1}(b_{1}+b_{2})\bmod a_{2})。可以证明在步骤A2中，(a_{4}=Q(q^{2}a_{1},a_{2})+Q(f,a_{3}))。

以亏格为3的曲线 (C:y^{2}+y = x^{7}/GF(2)) 为例，得到新的加法算法：

算法2（加法）

输入: a1, a2, b1, b2, s1, s2
输出: a, b
步骤A1’: q = s1 * (b1 + b2) mod a2
步骤A2’: a4 = Q(q^2 * a1, a2) + x + c2 + e2
步骤A3’: a4 = a4 / (leading Coefficient of a4)
步骤A4’: b4 = (q * a1 + b1 + 1) mod a4
步骤A5’: a’ = a4; b’ = b4;
步骤A6’: while(deg a4 > g)
    步骤A6’.1: a5 = Q(x^7 + b4^2, a4)
    步骤A6’.2: a5 = a5 / (leading coefficient of a5)
    步骤A6’.3: b5 = (b4 + 1) mod a5
    步骤A6’.4: a’ = a5; b’ = b5;
    步骤A6’.5: a4 = a5; b4 = b5;
返回 [a’, b’]

当 (D_{1}=D_{2})（加倍）时，算法如下：

算法3（加倍）

输入: a1, b1
输出: a’, b’
步骤D1: a3 = a1^2
步骤D2: b3 = (b1^2 + f) mod a3
步骤D3: a4 = (f + b3 + b3^2) / a3
步骤D4: a4 = a4 / (leading coefficient of a4)
步骤D5: b4 = (b3 + 1) mod a4
步骤D6: a’ = a4; b’ = b4;
步骤D7: while(deg a4 > g)
    步骤D7.1: a5 = (f + b4 + b4^2) / a4
    步骤D7.2: a5 = a5 / (Leading Coefficient of a5)
    步骤D7.3: b5 = (b4 + 1) mod a5
    步骤D7.4: a’ = a5; b’ = b5;
    步骤D7.5: a4 = a5; b4 = b5;
返回 [a’, b’]

各步骤的乘法运算数量如下：
|步骤|乘法运算数量|
| ---- | ---- |
|步骤D1| ((6g^{2}+1)) 次域乘法|
|步骤D2| ((16g^{2}-14g + 3)) 次域乘法|
|步骤D3（与步骤A3相同）| - |

同样，为了减少计算量，引入多项式 (T(\xi)=Q(E_{3},D_{1}))，在步骤D2中，(a_{4}=q^{2}+Q(f,a_{3}))。

3. 提出的算法（续）

3.2 算法优化分析

在上述加法和加倍算法中，步骤A1、A2、D1和D2中多项式的乘法和除法运算较为耗时。通过引入辅助多项式 (q(x)) 和 (T(\xi))，可以有效减少计算量。

以算法2为例，引入 (q(x)=s_{1}(b_{1}+b_{2})\bmod a_{2}) 后，在步骤A2中可以将 (a_{4}) 表示为 (a_{4}=Q(q^{2}a_{1},a_{2})+Q(f,a_{3}))，避免了一些不必要的计算。同样，在加倍算法中引入 (T(\xi)) 也能达到类似的优化效果。

下面我们详细分析优化后的计算复杂度变化。假设原算法的总乘法运算次数为 (O_{old})，优化后的总乘法运算次数为 (O_{new})。

对于加法算法，原算法步骤A1和A2的乘法运算次数分别为 ((13g^{2}-12g + 2)) 和 ((16g^{2}-14g + 3))，优化后通过引入 (q(x)) 减少了部分冗余计算。虽然具体减少的次数难以精确量化，但可以直观地看出，通过将 (b_{3}) 表示为 (q a_{1}+b_{1})，在计算 (a_{4}) 时避免了对 (b_{3}) 的重复计算，从而减少了乘法运算次数。

对于加倍算法，步骤D1和D2的乘法运算次数分别为 ((6g^{2}+1)) 和 ((16g^{2}-14g + 3))，引入 (T(\xi)) 后也能对计算进行优化。

算法	原乘法运算次数	优化后乘法运算次数（大致）
加法算法	((13g^{2}-12g + 2)+(16g^{2}-14g + 3))	减少部分冗余计算
加倍算法	((6g^{2}+1)+(16g^{2}-14g + 3))	减少部分冗余计算

3.3 硬件实现考虑

在硬件实现方面，亏格为 (g) 的超椭圆曲线雅可比加法的硬件由四个寄存器组 (U_{reg})、(X_{reg})、(Y_{reg}) 和 (Z_{reg}) 组成。为了实现算法的高效运行，需要合理安排寄存器的使用和数据的流动。

以下是硬件实现的一些关键步骤：
1. 初始化寄存器 ：将输入的多项式 (a_{1})、(a_{2})、(b_{1})、(b_{2}) 等的系数存储到相应的寄存器中。
2. 计算GCD ：使用扩展欧几里得算法计算 (a_{1}) 和 (a_{2}) 的最大公因子 (d) 以及 (s_{1}) 和 (s_{2})，并将结果存储在寄存器中。
3. 选择算法 ：根据输入判断是进行加法还是加倍运算，然后执行相应的算法。
4. 执行算法步骤 ：按照算法的步骤依次进行多项式的乘法、除法、取模等运算，将中间结果存储在寄存器中。
5. 输出结果 ：将最终计算得到的 (a’) 和 (b’) 从寄存器中输出。

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A([初始化寄存器]):::startend --> B(计算GCD):::process
    B --> C(选择算法):::process
    C -->|加法| D(执行加法算法):::process
    C -->|加倍| E(执行加倍算法):::process
    D --> F(输出结果):::process
    E --> F
    F --> G([结束]):::startend

4. 实验结果与分析

4.1 硬件性能估计

使用0.27 - um CMOS门阵列技术对硬件的大小和速度进行估计。对于亏格为6的曲线，硬件计算一次加法运算需要100个时钟周期，计算一次加倍运算需要29个时钟周期，并且可以在高达83 MHz的时钟频率下工作。

不同亏格曲线的硬件性能估计如下表所示：
|曲线亏格|加法时钟周期数|加倍时钟周期数|最大时钟频率|
| ---- | ---- | ---- | ---- |
|3|待估计|待估计|待估计|
|6|100|29|83 MHz|

4.2 与其他密码系统的比较

从硬件实现的角度，将超椭圆曲线密码系统与RSA和椭圆曲线密码系统进行比较。

超椭圆曲线密码系统的优势在于，如果超椭圆曲线雅可比的阶与椭圆曲线上点的阶大小相同，那么雅可比的基域比椭圆曲线的基域小，这对于硬件实现更为有利。而且，公式中使用的多项式乘法运算可以通过并行处理硬件有效地执行。

不过，超椭圆曲线密码系统也存在一定的局限性。例如，对于亏格大于4的曲线，可能存在一些攻击方法，使得其安全性有所降低。具体来说，Gaudry给出了超椭圆曲线上离散对数问题的新算法，Duursma、Gaudry和Morain提出了加速具有大阶自同构曲线离散对数计算的方法，这些方法对亏格大于4的曲线攻击效果可能较好。因此，亏格为3的超椭圆曲线密码系统具有与160 - 位密钥椭圆曲线密码系统相同的安全级别，而亏格为6的超椭圆曲线密码系统安全性相对较弱。

密码系统	基域大小优势	安全性	硬件实现复杂度
超椭圆曲线密码系统（亏格3）	基域较小	与160 - 位密钥ECC相同	适中
超椭圆曲线密码系统（亏格6）	基域较小	弱于160 - 位密钥ECC	适中
椭圆曲线密码系统	基域相对较大	较高	适中
RSA	-	较高	较高