字符级CNN分类模型的实现

该博客介绍了如何实现字符级CNN分类模型,基于论文1509.01626,包括模型结构、数据集处理、配置、训练和测试过程。作者分享了项目的GitHub链接,提供了一个包含6个卷积层和3个全连接层的网络结构,并展示了训练和测试的结果,准确率达到0.8789。

上次发了一条字符级分类模型的推文,

这两天在家里就是对字符级CNN分类论文进行了代码实现:1509.01626 Character-level Convolutional Networks for Text Classification

项目代码见:https://github.com/howie6879/charcnntext_classification

项目环境:

  • Python3.6

  • Anaconda+Pipenv管理

使用

# 下载代码	
git clone https://github.com/howie6879/char_cnn_text_classification.git	
# 利用anaconda建立Python3.6环境 	
conda create -n python36 python=3.6	
# 进入项目 	
cd char_cnn_text_classification	
# --python 后面的路径是上面conda创建的路径地址	
pipenv install --python  ~/anaconda3/envs/python36/bin/python3.6	
# 如果出错 否则跳过这段	
pipenv run pip install pip==18.0	
# 安装依赖 具体以来可查看Pipenv文件	
pipenv install	
# 进入代码目录	
cd char_cnn_text_classification

模型

模型结构和论文中介绍的一样:

640?wx_fmt=jpeg

论文中设计了 large和 small两种卷积网络,分别对应不同大小的数据集,且都由6个卷积层和3个全连接层共9层神经网络组成

对于英文数据,如果数据集不大,可以考虑使用包含大小写的字母表

数据集

agnewscsv:新闻数据

对于英文数据,包含在[ag_news_csv]文件夹里面,信息如下:

  • 训练集:120000

  • 测试集:7600

  • 类别:4

数据集处理类[DataUtils],这里以训练集 shape为例:

  • Input实例:(120000, 1014)

  • Label:(120000, 4)

配置

关于配置,请参考[Config]类:

# 字母表	
alphabet = "abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:'\"/\\|_@#$%^&*~`+-=<>()[]{}"	
alphabet_size = len(alphabet)	
# 输入大小,即论文中的l0	
input_size = 1014	
# 训练集类别	
num_of_classes = 4	
batch_size = 128	
epochs = 1000	
checkpoint_every = 100	
evaluate_every = 100	
# 激活函数的 threshold 值	
threshold = 1e-6	
# 防止过拟合 dropout保留比例	
dropout_p = 0.5	
# 损失函数	
loss = 'categorical_crossentropy'	
# 优化器 rmsprop adam	
optimizer = 'adam'
训练

配置好环境之后,可以直接进行训练:

python run_model.py

可以在测试集分出20000条作为验证集进行训练

Data loaded from datasets/ag_news_csv/train.csv	
CharCNN model built success:	
......	
Training Started ===>	
Train on 100000 samples, validate on 20000 samples	
Epoch 1/10	
......	
100000/100000 [==============================] - 4338s 43ms/step - loss: 0.9999 - acc: 0.5329 - val_loss: 0.6755 - val_acc: 0.7290	
Epoch 2/10	
......	
100000/100000 [==============================] - 4265s 43ms/step - loss: 0.5044 - acc: 0.8204 - val_loss: 0.4582 - val_acc: 0.8405	
Epoch 3/10	
......	
100000/100000 [==============================] - 4268s 43ms/step - loss: 0.3593 - acc: 0.8799 - val_loss: 0.4177 - val_acc: 0.8522	
......

迭代了三轮,就达到了论文中所说的效果 0.8522

准确率和误差图示:

640?wx_fmt=jpeg640?wx_fmt=jpeg

可以看到,迭代6、7轮后的结果挺不错,也可以利用 Tensorboard进行可视化:

tensorboard --logdir=char_cnn_text_classification/logs
测试
char_cnn_model.model.evaluate(test_inputs, test_labels, batch_size=Config.batch_size, verbose=1)

可以得到结果输出:

128/7600  [..............................] - ETA: 1:51	
......	
7600/7600 [==============================] - 110s 15ms/step	
[0.41680785787732977, 0.8789473684210526]

其中:

  • loss: 0.41

  • acc: 0.8789

说明

感谢论文作者 XiangZhang,JunboZhao,YannLeCun,以及下面这些开源项目:

  • GitHub - mhjabreel/CharCNN

  • GitHub - mhjabreel/CharCnn_Keras: The implementation of text classification using character level convoultion neural networks using Keras

模型源码请点击阅读原文

往期推荐:

代码转载自:https://pan.quark.cn/s/8ce4326d996e 对于在 CentOS 7 系统中修改网卡配置文件后无法使设置生效的情况,经过实践验证,可以通过使用 nmcli 命令来进行调整。完成修改之后,需要重新启动虚拟机以使更改生效,这样操作流程即告完成。如果设置仍然无法生效,则表明虚拟机在启动过程中所获取的 IP 地址配置并非针对 eth0,此时可以对其它网卡的配置文件进行修改或将其移除。在 CentOS 7 系统中,网络配置的管理机制与早期版本存在差异,主要体现为采用了 Network Manager 服务来负责网络接口的管理。在某些情形下,尽管修改了 `/etc/sysconfig/network-scripts` 目录下的 `ifcfg-eth0` 文件,但网络配置却未能即时生效。此类问题的发生通常源于 CentOS 7 采用了不同于以往的配置读取方法。接下来将具体阐述如何借助 nmcli 命令来处理这一挑战。 以 root 用户身份登录系统并打开终端界面。nmcli 是 Network Manager 提供的命令行界面工具,它支持在命令行环境下执行网络连接的建立、编辑、查询及管理任务。针对修改 eth0 网卡配置的需求,可以遵循以下步骤进行操作: 1. 导航至 `/etc/sysconfig/network-scripts` 目录: ``` cd /etc/sysconfig/network-scripts ``` 2. 检查该目录内是否存在 `ifcfg-eth0.bak` 文件,该备份文件可能是先前调整配置时遗留下来的,若存在可能造成冲突。若发现该文件,可以选择将其删除: ``` [root@localhost netw...
代码转载自:https://pan.quark.cn/s/46fd08fb879c 网管教程 从入门到精通软件篇 ★一。★详尽的xp修复控制台指令及其应用!!! 放入xp(2000)的光盘,安装时选择R,执行修复! Windows XP(涵盖 Windows 2000)的控制台指令是在系统遭遇某些意外状况时的一种极具效用的诊断、检测以及恢复系统功能的工具。笔者确实一直期望能够将这方面的指令进行归纳,此次由老范辛苦整理了这份极具价值的秘籍。 Bootcfg bootcfg 命令用于启动配置与故障恢复(对大多数计算机而言,即 boot.ini 文件)。 带有特定参数的 bootcfg 命令仅在运用故障恢复控制台时方可使用。能够在命令行界面下运用带有不同参数的 bootcfg 命令。 用法: bootcfg /default 设定默认引导选项。 bootcfg /add 向引导清单中增添 Windows 安装。 bootcfg /rebuild 重复整个 Windows 安装流程并让用户选择需添加的项目。 注意:运用 bootcfg /rebuild 之前,应先借助 bootcfg /copy 命令备份 boot.ini 文件。 bootcfg /scan 探查用于 Windows 安装的全部磁盘并展示结果。 注意:这些结果被静态存储,并用于当前会话。若在当前会话期间磁盘配置发生变动,为获取更新的探查结果,必须先重启计算机,然后再次探查磁盘。 bootcfg /list 列示引导清单中已有的项目。 bootcfg /disableredirect 在启动引导程序中禁用重定向。 bootcfg /redirect [ PortBaudRrate] |[ useBio...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值