机器学习11：应用之图片字符识别

最新推荐文章于 2026-05-28 08:34:38 发布

原创最新推荐文章于 2026-05-28 08:34:38 发布 · 1k 阅读

本内容遵循CC 4.0 BY-SA版权协议

14 篇文章

订阅专栏

本文介绍了从图片中识别文字信息的流程，包括滑动窗口技术用于行人和文本检测，字符分割，以及单个字符的识别。通过人工合成训练样本解决样本获取问题，并进行了上限分析，揭示文本检测是对系统准确度提升最显著的步骤。

问题简介及解决流程

在这里插入图片描述

以上三个流程可分别安排团队成员(1-5个)进行处理

在这里插入图片描述

PS：如果横着滑，滑完第一行后，要滑到下一行时，需要注意的是，也是按步长滑动下降到1+b行(如果b为步长)

在这里插入图片描述

如左图，以上白色区域便是检测到文本的区域；可以通过区域扩展(expansion)，使文本变成如右下图的整块

按正常使用逻辑回归识别即可
但是存在如何获取大量训练样本的问题，可以人工合成关于字符的训练集(不同字体、艺术字、旋转、缩放、扭曲、模糊化、随机背景等)
1. 左边是真实数据，右边是理想数据
2. 可以给左边的样本加上随机背景变成右边
3. 扭曲
同理，以上训练集扩展方法也可以应用于声音检测：

在这里插入图片描述

如上图，第一个声音是原始声音，第二个是模拟了通信差的情景，第三个是加上了人群声，第四个是加上了机器声

注意的是：
1. 不要仅仅加上随机/无意义的噪声就作为新样本，这样的样本帮助不大：
2. 在扩展训练集之前确定拥有低偏差高方差(通过学习曲线判断)的假设函数(分类器)，比如一直增加隐藏层或特征数量直到拥有低偏差分类器
3. 思考如果要获得10倍的数据需要花多长时间。(途径包括人工合成、自己收集和标记、自己掏钱从众包中获取（如亚马逊劳务众包平台“Amazon MechanicalTurk”）)