PSENet性能评测:在ICDAR 2015/CTW1500/Total-Text数据集上的表现
PSENet(Progressive Scale Expansion Network)是一款基于PyTorch实现的先进文本检测模型,专门用于解决任意形状文本检测的挑战。这款渐进式尺度扩展网络通过独特的核预测机制,在ICDAR 2015、CTW1500和Total-Text等主流文本检测数据集上展现出了卓越的性能表现。💪
📊 PSENet在ICDAR 2015数据集上的表现
ICDAR 2015数据集是文本检测领域最具挑战性的基准测试之一,包含大量自然场景中的倾斜文本和任意方向文本。PSENet在该数据集上取得了令人瞩目的成绩!
| 方法 | 骨干网络 | 微调 | 输入尺寸 | 精确率 (%) | 召回率 (%) | F1分数 (%) |
|---|---|---|---|---|---|---|
| PSENet | ResNet50 | 否 | 短边: 736 | 83.6 | 74.0 | 78.5 |
| PSENet | ResNet50 | 否 | 短边: 1024 | 84.4 | 76.3 | 80.2 |
| PSENet | ResNet50 | 是 | 短边: 736 | 85.3 | 76.8 | 80.9 |
| PSENet | ResNet50 | 是 | 短边: 1024 | 86.2 | 79.4 | 82.7 |
配置文件中,你可以找到针对ICDAR 2015的不同训练设置:config/psenet/psenet_r50_ic15_736.py 和 config/psenet/psenet_r50_ic15_1024_finetune.py。这些配置文件定义了模型的网络结构、训练参数和评估指标。
🎯 PSENet在CTW1500曲线文本数据集上的评测
CTW1500数据集专注于曲线文本检测,对模型的形状适应性提出了更高要求。PSENet通过渐进式尺度扩展策略,在处理曲线文本时表现出色!
| 方法 | 骨干网络 | 微调 | 精确率 (%) | 召回率 (%) | F1分数 (%) |
|---|---|---|---|---|---|
| PSENet | ResNet50 | 否 | 82.6 | 76.4 | 79.4 |
| PSENet | ResNet50 | 是 | 84.5 | 79.2 | 81.8 |
针对CTW1500的配置文件位于:config/psenet/psenet_r50_ctw.py 和 config/psenet/psenet_r50_ctw_finetune.py。这些配置优化了模型对曲线文本的检测能力。
✨ PSENet在Total-Text数据集上的卓越表现
Total-Text数据集包含了大量水平、倾斜和曲线文本,是评估文本检测模型综合能力的理想基准。PSENet在该数据集上展现了强大的泛化能力!
| 方法 | 骨干网络 | 微调 | 精确率 (%) | 召回率 (%) | F1分数 (%) |
|---|---|---|---|---|---|
| PSENet | ResNet50 | 否 | 87.3 | 77.9 | 82.3 |
| PSENet | ResNet50 | 是 | 89.3 | 79.6 | 84.2 |
Total-Text的配置文件可以在 config/psenet/psenet_r50_tt.py 和 config/psenet/psenet_r50_tt_finetune.py 中找到,这些配置针对任意形状文本进行了专门优化。
🔧 PSENet核心架构解析
PSENet的核心创新在于渐进式尺度扩展机制,该机制通过预测多个不同尺度的文本核来实现精确的文本实例分割。模型的主要组件包括:
- 骨干网络:基于ResNet50的特征提取器
- 特征金字塔网络:多尺度特征融合
- PSENet检测头:文本核预测和渐进式扩展
核心实现代码位于 models/psenet.py 和 models/head/psenet_head.py,这些文件定义了模型的完整架构和训练逻辑。
📈 性能优化技巧
1. 输入尺寸选择
- 736×736:平衡速度和精度,适合实时应用
- 1024×1024:更高的检测精度,适合对精度要求较高的场景
2. 微调策略
- 使用预训练模型进行微调可以显著提升性能
- 在目标数据集上进行微调,F1分数可提升2-4个百分点
3. 评估脚本使用
项目提供了完整的评估脚本:
- ICDAR 2015评估:eval/eval_ic15.sh
- CTW1500评估:eval/eval_ctw.sh
- Total-Text评估:eval/eval_tt.sh
🚀 快速开始指南
要复现PSENet的性能评测结果,只需几个简单步骤:
- 安装依赖:
pip install -r requirement.txt
./compile.sh
- 下载预训练模型:
- ICDAR 2015模型:checkpoints/psenet_r50_ic15_736/
- CTW1500模型:checkpoints/psenet_r50_ctw/
- Total-Text模型:checkpoints/psenet_r50_tt/
- 运行评估:
python test.py config/psenet/psenet_r50_ic15_736.py checkpoints/psenet_r50_ic15_736/checkpoint.pth.tar
💡 总结
PSENet在ICDAR 2015、CTW1500和Total-Text三个主流文本检测数据集上均展现了出色的性能表现。通过渐进式尺度扩展机制,模型能够准确检测任意形状的文本,包括水平、倾斜和曲线文本。
关键优势:
- 🎯 高精度:在多个数据集上达到SOTA水平
- 🔄 强泛化:适应不同形状和方向的文本
- ⚡ 易部署:基于PyTorch实现,便于集成和部署
- 📚 完整工具链:提供训练、测试、评估全套脚本
无论你是文本检测领域的研究者还是开发者,PSENet都为你提供了一个强大而可靠的解决方案!🚀
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考




