归纳推理与机器学习中的相关概念解析
1. 因果关系与亨佩尔悖论
在哲学领域,研究证据如何证实科学假设的分支被称为证实理论。归纳主义者反对波普尔的观点,他们认为观察到从假设中推导出来的数据,不仅不会反驳该假设,还能在一定程度上证实它。例如,看到一只白天鹅能证实“所有天鹅都是白色的”这一假设,因为逻辑关系为:
(\forall x: swan(x) \to white(x); swan(white swan) \vdash swan(white swan))
然而,按照同样的逻辑,观察到任何非白色、非天鹅的物体(比如一只黑色的乌鸦)也能证实“所有天鹅都是白色的”,逻辑关系为:
(\forall x: swan(x) \to white(x); \neg white(black raven) \vdash \neg(black raven))
这就是亨佩尔悖论,针对该悖论有以下几种可能的回应:
|回应方式|具体内容|
| ---- | ---- |
|接受确认实例|认为黑色乌鸦是一个确认实例,因为宇宙中的一个物体已被排除为潜在的反驳者,但确认程度“极小且可忽略不计”。|
|因果解释假设|拒绝将假设表述为实质蕴涵,而是认为科学假设应从因果关系上进行解释。例如,“所有天鹅都是白色的”,若要成为有意义的科学命题,需断言天鹅的属性导致了白色这一特征。这样,一只黑天鹅不一定能反驳该命题,因为可能有其他因素同时起作用。|
2. 归纳偏差
大多数机器学习算法会对未来数据进行预测,而这些预测无法从已观察到的数据中推导得出。算法的归纳偏差就是在不同的未来预测可能性中进行选择的依据。
2.1 归纳偏差的形式
- 声明性偏差 :学习者对假设/模型空间的选择,这是一种较强形式的归纳偏差。
- 贝叶斯先验分布 :在贝叶斯分析中,归纳偏差包含在先验分布中。
2.2 归纳偏差的作用
归纳偏差帮助算法在面对不确定的未来数据时,做出合理的预测选择,使算法能够从有限的观察数据中学习并推广到未知数据。
3. 归纳数据库方法在图挖掘中的应用
3.1 概述
归纳数据库方法在图挖掘中的特点主要体现在两个方面:
-
查询图模式
:在图数据库中查询(子图)模式,这需要一种查询语言来指定感兴趣的模式。
-
使用特定数据结构
:使用特定的数据结构来表示解决方案空间,以实现对解决方案模式的紧凑表示。
3.2 模式领域
与其他图挖掘方法不同,归纳数据库方法侧重于简单模式(路径和树)和复杂查询,而非复杂模式(一般子图)和简单查询(仅最小频率)。最初的方法仅限于将路径作为图数据库中的模式,后来扩展到无根树。该方法的大多数应用涉及小分子结构和结构 - 活性关系(SAR),即预测化合物生物活性的模型。
3.3 查询语言
查询语言用于指定对模式的条件,通常称为对解决方案空间的约束。这些约束可分为频率相关约束和语法相关约束:
-
频率相关约束
:通过查询原语表达,例如 (f(p, D) \geq t) 表示子图模式 (p) 在图数据库 (D) 中出现的频率至少为 (t)。其他频率相关原语还包括要求最大出现频率或与目标类的最小一致性等。回答频率相关查询通常需要访问数据库。
-
语法相关约束
:仅限制解决方案(子图)模式的语法,不需要访问数据库。例如,要求模式 (p) 比 “c:c - Cl” 更具体(形式上 (p \geq c:c - Cl))或比 “C - c:c:c:c:c - Cl” 更一般(形式上 (p \leq C - c:c:c:c:c - Cl))。
许多模式约束可分为单调约束和反单调约束:
-
反单调约束
:如最小频率约束,若一个模式在数据库中是频繁的(根据用户定义的阈值),则其所有子模式(子图)也是频繁的。
-
单调约束
:如最大频率约束,若一个模式的出现频率不太高,则其所有超模式(超图)的出现频率也不太高。
这些约束可以通过不同的算法来解决,如下所示:
|约束类型|解决算法|
| ---- | ---- |
|反单调或单调约束|可通过层次搜索和Apriori算法的变体解决|
|涉及凸函数的约束|可通过分支限界算法解决|
3.4 数据结构
解决方案可以用版本空间表示,特别是满足约束的最一般和最具体模式的边界。模式的版本空间可以用版本空间树等数据结构表示。对于序列,基于后缀数组的数据结构比基于版本空间的数据结构更高效。允许单调或反单调原语的析取范式的查询语言会产生多个版本空间作为解决方案,这些可以用版本空间树的扩展来表示。归纳数据库方法在图挖掘中也可归类为基于约束的挖掘,目标是找到满足用户定义约束的解决方案模式。
graph LR
A[图数据库] --> B[查询语言指定约束]
B --> C{约束类型}
C -->|反单调或单调约束| D[层次搜索和Apriori变体]
C -->|涉及凸函数约束| E[分支限界算法]
D --> F[版本空间表示解决方案]
E --> F
F --> G[版本空间树等数据结构]
4. 归纳推理
4.1 定义
归纳推理是一个理论框架,用于模拟极限学习。典型场景是学习者依次读取关于某个概念的数据 (d_0, d_1, d_2, \cdots),并同时输出假设 (e_0, e_1, e_2, \cdots),每个假设 (e_n) 基于之前的数据 (d_0, d_1, \cdots, d_{n - 1})。这些假设期望收敛到对观察数据的描述,收敛的约束取决于所考虑的学习范式。
4.2 学习场景
通常考虑递归函数或递归可枚举语言的学习。直观上,通过编码可以将任何自然现象编码为自然数集 (N) 的子集。因此,从 (N) 到 (N) 的递归函数或 (N) 的递归可枚举子集(这里称为语言)是自然的学习概念。
4.3 数据提供方式
- 正数据 :学习者仅被告知目标语言中的每个元素,一次一个元素,但不会被告知不在目标语言中的元素。在许多自然情况下,如儿童学习语言和科学探索(如天文学),通常只能获得正数据。
- 正数据和负数据 :学习者被告知每个元素是否属于目标语言。
4.4 解释性学习
4.4.1 定义
学习者 (M_{TxtEx}) 识别语言 (L) 当且仅当对于 (L) 的所有文本 (T),(M) 收敛到一个索引 (e),使得 (W_e = L)。如果 (M_{TxtEx}) 能识别类 (L) 中的每个语言,则称 (M_{TxtEx}) 识别类 (L)。如果存在某个学习者 (TxtEx) 能识别类 (L),则称类 (L) 是 (TxtEx) 可学习的。
4.4.2 重要语言类示例
| 语言类 | 定义 | TxtEx可学习性 | InfEx可学习性 |
|---|---|---|---|
| RE | ({L: L) 是递归可枚举的} | - | - |
| FIN | ({L: L) 是 (N) 的有限子集} | 是 | 是 |
| KFIN | ({L: L = K \cup H) 对于某个 (H \in FIN}),其中 (K) 是停机问题 | 否 | 是 |
| SD | ({L: W_{min(L)} = L}) | 是 | 是 |
| COFIN | ({L: N - L) 是有限的} | 否 | 是 |
| SDSIZE | ({{e + x: x = 0 \vee x < \vert W_e \vert}: W_e) 是有限的} | 是 | 是 |
| SDALL | ({{e + x: x \in N}: e \in N}) | 是 | 是 |
4.5 超越解释性学习
4.5.1 行为正确性学习(TxtBc学习)
学习者 (M_{TxtBc}) 识别语言 (L) 当且仅当对于 (L) 的所有文本 (T),除了有限个 (n) 之外,(W_{M(T[n])} = L)。每个 (TxtEx) 可学习的类都是 (Bc) 可学习的,但 (KFIN) 和 (SDSIZE \cup SDALL) 是 (TxtBc) 可学习但不是 (TxtEx) 可学习的。
4.5.2 摇摆学习(TxtFex学习)
这是一种中间学习标准,类似于 (TxtBc) 学习,但要求学习者在任何文本上输出的不同假设的数量是有限的。例如,学习者 (TxtFex_n) 学习语言 (L) 是指在 (L) 的任何文本 (T) 上,无限次出现的不同假设的数量被 (n) 限制。
4.5.3 允许异常的学习
可以考虑最终假设存在异常的情况,例如 (W_n =
a L) 表示语法 (n) 对于语言 (L) 有最多 (a) 个异常。可以定义 (TxtEx_a) 和 (TxtBc_a) 学习标准,并且有如下关系:
(TxtEx = TxtEx_0 \subset TxtEx_1 \subset TxtEx_2 \subset \cdots \subset TxtEx
{\infty})
(TxtBc = TxtBc_0 \subset TxtBc_1 \subset TxtBc_2 \subset \cdots \subset TxtBc_{\infty})
4.6 一致性和保守性学习
4.6.1 一致性学习
学习者 (M) 在语言 (L) 上是一致的当且仅当对于 (L) 的所有文本 (T),(ctnt(T[n]) \subseteq W_{M(T[n])})。文献中考虑了三种一致性概念:
-
TCons
:学习者在所有输入上都应保持一致,无论输入是否代表目标类中的某个概念。
-
Cons
:学习者只需在目标类中的语言上保持一致,在目标类之外的输入上可能不一致甚至未定义。
-
RCons
:学习者在所有输入上都有定义,但只要求在目标类中的语言上保持一致。
它们之间的关系为:(TCons \subset RCons \subset Cons \subset TxtEx)
4.6.2 保守性学习
学习者 (M) 是保守的,如果它不会改变主意,除非数据与它的假设相矛盾。存在一些语言类可以被 (TxtEx) 识别,但不能被保守地识别。例如,包含所有 (SDALL) 集合以及一些具有最小 (k_s) 和最多 (s) 个元素的集合的类,就不能被保守地学习。
4.7 单调性
4.7.1 主要单调性概念
- 强单调性 :学习者 (M) 在语言 (L) 上是强单调的当且仅当对于 (L) 的所有文本 (T),(W_{M(T[n])} \subseteq W_{M(T[n + 1])})。
- 单调性 :学习者 (M) 在语言 (L) 上是单调的当且仅当对于 (L) 的所有文本 (T),(W_{M(T[n])} \cap L \subseteq W_{M(T[n + 1])} \cap L)。
- 弱单调性 :学习者 (M) 在语言 (L) 上是弱单调的当且仅当对于 (L) 的所有文本 (T),如果 (ctnt(T[n + 1]) \subseteq W_{M(T[n])}),则 (W_{M(T[n])} \subseteq W_{M(T[n + 1])})。
强单调学习意味着单调学习和弱单调学习,但单调学习和弱单调学习是不可比的,它们都是 (TxtEx) 学习的适当限制。
4.7.2 对偶单调性标准
Lange等人还考虑了上述标准的对偶版本,包括对偶强单调性、对偶单调性和对偶弱单调性。
4.8 索引族
Angluin发起了对递归语言索引族学习的研究。一个语言类(连同其索引)(L_0, L_1, \cdots) 是索引族,如果对于语言的成员资格问题可以在 (x) 和 (i) 上统一递归地决定。
4.8.1 可学习性标准
在学习索引族的框架下,根据使用的假设空间 (H = H_0, H_1, \cdots) 定义了以下可学习性标准:
-
精确可学习
:存在一个学习者使用与给定类相同的假设空间,即 (H_n = L_n) 对于所有 (n)。
-
类保持可学习
:存在一个学习者使用假设空间 (H),使得 ({L_0, L_1, \cdots} = {H_0, H_1, \cdots}),假设空间中语言的顺序和出现次数可以不同,但必须包含与待学习类相同的语言,且不允许有其他语言。
-
类包含可学习
:存在一个学习者使用假设空间 (H),使得 ({L_0, L_1, \cdots} \subseteq {H_0, H_1, \cdots}),假设空间可以包含待学习类之外的其他语言,学习者不需要识别这些额外的语言。
-
规定可学习
:对于包含 (L) 中所有语言的每个假设空间 (H),都存在一个学习者使用该假设空间来学习 (L)。
-
统一可学习
:对于包含 (L) 中所有语言且具有索引 (e) 的每个假设空间 (H),都可以合成一个学习者 (M_e),使用该假设空间成功学习 (L)。
对于解释性学习,所有这些概念是一致的,但对于其他学习概念(如保守学习、单调学习和强单调学习),这些概念是不同的。例如,所有有限集的类不是规定保守可学习的。
4.9 归纳推理的进一步探讨
4.9.1 不同学习范式的比较
不同的学习范式在归纳推理中各有优劣。从可学习性的角度来看,解释性学习(TxtEx)对学习者的要求较为严格,需要学习者在观察足够多的数据后,输出一个稳定且正确的假设来解释目标概念。而行为正确性学习(TxtBc)则相对宽松,只要求学习者的假设在语义上最终收敛到正确的概念,允许假设在语法上有一定的波动。摇摆学习(TxtFex)则介于两者之间,限制了学习者输出不同假设的数量。
在允许异常的学习中,随着允许异常数量的增加,可学习的范围也在扩大。例如,(TxtEx_a) 随着 (a) 的增大,能够学习的语言类也增多,但这也意味着对假设的准确性要求降低。
4.9.2 学习属性之间的关系
一致性、保守性和单调性等学习属性之间存在着复杂的关系。一致性学习要求学习者的假设与已观察到的数据保持一致,不同类型的一致性(TCons、Cons、RCons)反映了对一致性要求的不同程度。保守性学习则强调学习者在没有足够证据时不轻易改变假设,这在某些情况下可能会限制学习者的学习能力。
单调性学习对假设的增长或收缩提出了要求,强单调性要求假设不断增大,单调学习要求假设相对于目标语言不断增大,弱单调性则在数据与假设一致时要求假设增大。这些单调性概念之间也存在着包含或不可比的关系,它们共同影响着学习者的学习效果。
| 学习属性 | 特点 | 与其他属性关系 |
|---|---|---|
| 一致性学习 | 要求假设与数据一致 | 与解释性学习有包含关系,不同类型一致性之间有包含关系 |
| 保守性学习 | 不轻易改变假设,除非数据矛盾 | 存在可解释性学习但不可保守学习的类 |
| 单调性学习 | 对假设增长或收缩有要求 | 强单调性包含单调和弱单调性,单调和弱单调性不可比 |
4.9.3 索引族学习的意义
索引族学习为研究递归语言的学习提供了一个特定的框架。通过定义不同的可学习性标准,我们可以更深入地了解学习者在不同假设空间下的学习能力。精确可学习要求假设空间与给定类完全一致,类保持可学习允许假设空间中语言的顺序和出现次数不同,类包含可学习则允许假设空间包含额外的语言。规定可学习和统一可学习则从更广义的角度考虑了假设空间的选择对学习的影响。
在实际应用中,选择合适的假设空间和学习标准对于提高学习效率和准确性至关重要。例如,在某些情况下,我们可能更希望使用精确可学习的方法,以确保学习结果的准确性;而在其他情况下,类包含可学习的方法可能更具灵活性,能够适应更广泛的假设空间。
graph LR
A[学习范式] --> B[解释性学习]
A --> C[行为正确性学习]
A --> D[摇摆学习]
A --> E[允许异常学习]
F[学习属性] --> G[一致性学习]
F --> H[保守性学习]
F --> I[单调性学习]
J[索引族学习] --> K[精确可学习]
J --> L[类保持可学习]
J --> M[类包含可学习]
J --> N[规定可学习]
J --> O[统一可学习]
5. 归纳推理在机器学习中的应用
5.1 预测未来数据
归纳推理在机器学习中最常见的应用之一是预测未来数据。大多数机器学习算法都需要根据已观察到的数据对未来数据进行预测,而归纳偏差则在这个过程中起到了关键作用。通过选择合适的假设/模型空间或使用贝叶斯先验分布,算法可以在不同的未来预测可能性中做出选择。
例如,在图像识别任务中,算法需要根据已有的图像数据学习到图像的特征和模式,然后对新的图像进行分类。归纳偏差可以帮助算法选择合适的特征和模型,从而提高预测的准确性。
5.2 图挖掘中的应用
归纳数据库方法在图挖掘中的应用为处理复杂的图数据提供了有效的手段。通过在图数据库中查询(子图)模式,并使用特定的数据结构来表示解决方案空间,我们可以挖掘出有意义的模式和关系。
在小分子结构和结构 - 活性关系(SAR)的研究中,归纳数据库方法可以帮助我们发现与化合物生物活性相关的子图模式。通过设置合适的查询约束,如频率相关约束和语法相关约束,我们可以筛选出符合要求的模式,并进一步分析它们与生物活性之间的关系。
5.3 语言学习中的应用
归纳推理在语言学习领域也有广泛的应用。在儿童学习语言的过程中,他们通过不断地观察和模仿周围的语言环境,逐渐学习到语言的规则和模式。这与归纳推理中学习者根据观察到的数据输出假设并逐渐收敛到正确概念的过程类似。
在自然语言处理中,我们也可以使用归纳推理的方法来学习语言模型。例如,通过对大量文本数据的学习,我们可以预测下一个单词的出现概率,从而实现文本生成、机器翻译等任务。
6. 总结与展望
6.1 归纳推理的重要性
归纳推理作为一种理论框架,为我们理解和模拟学习过程提供了有力的工具。通过研究不同的学习范式、学习属性和可学习性标准,我们可以更深入地了解学习者的学习能力和限制。在机器学习、图挖掘和语言学习等领域,归纳推理都发挥着重要的作用,帮助我们从有限的数据中获取有价值的信息。
6.2 未来研究方向
未来的研究可以从以下几个方面展开:
-
更复杂的学习场景
:目前的研究主要集中在递归函数和递归可枚举语言的学习,未来可以考虑更复杂的学习场景,如学习非递归函数或处理不确定的数据。
-
多属性学习的结合
:可以进一步研究一致性、保守性、单调性等学习属性之间的相互作用,探索如何在一个学习算法中综合考虑这些属性,以提高学习效果。
-
实际应用的拓展
:将归纳推理的理论成果应用到更多的实际领域,如医疗诊断、金融预测等,解决实际问题并验证理论的有效性。
总之,归纳推理是一个充满挑战和机遇的研究领域,随着技术的不断发展和研究的深入,我们有望在这个领域取得更多的突破和进展。
超级会员免费看
1574

被折叠的 条评论
为什么被折叠?



