识别汉字图像的数据集

下载地址:cnftl-20171119.rar

要做这个数据集的直接原因是正在写OCR框架,OCR的第三步是用TensorFlow识别汉字。这个数据集包括以下部分。

  1. ASCII码,[0x21--0x7e]。
  2. 汉字标点符号,14个。
  3. 常用的3500个字汉字。取自《义务教育语文课程标准(2011版)》
  4. GB2312收录的3755个一级汉字,但不在上面3500中的部分。注意会存在这么种汉字,它在3500中,但不在此处的3755,因而这里加的部分会超过255个。
图1 数据集中字符(微软雅黑),可放大查看

一、下载

下载cnftl-20171119.rar、解压缩,以下是当中内容。

  • train(目录)。训练集,各个字符的png图像。当前只有训练集,没有验证、测试集。
  • labels.txt(文件)。存储着集合中各字符对应的UNICODE码。app可用它做标注。
  • fonts(目录)。用于生成数据集的UNICODE字库。这些字库可直接来自Win10系统目录下的“Fonts”。目录中除了字库文件,还有个叫fonts.cfg的文件,Studio在生成数据集时需要这文件。
  • train-xxx-wall.png。各字库对应的字符墙,示例见上面的图1,在生成train目录时会同时生成这些png图像。
  • rgb_2_gray.py。Studio生成train目录中图像是一个像素占3个字节的rgb格式。训练集中都是黑白图像,为减少尺寸可转成灰度格式,这个py文件的作用就把rgb转成gray。
  • chinese-3500.txt。《义务教育语文课程标准(2011版)》中写的3500个常用汉字,Studio用它来生成labels.txt。

二、用Studio生成数据集

Rose Studio支持生成识别汉字图像的数据集。

图2 Studio生成数据集

要生成数据集,需要准备的文件。1)labels.txt,Studio通过它知道要生成哪些字符。2)fonts目录下文件,包括字库和fonts.cfg。Studio会逐个解析字库,然后提取出labels.txt写着的字符,然后生成train目录下文件和train-xxx-wall.png。

编辑于 2017-11-19

文章被以下专栏收录

    kOS+Rose+AI Smart。kOS:不是一个全新操作系统,是裁剪过只剩C/C++、针对无人值守设备优化过的Android。Rose:开发人工智能app的跨平台工具链,支持kOS、iOS、Android、Windows、Mac OS X和Linux。AI Smart:一个基于Rose的跨平台App,让测试并分享你的TensorFlow Lite模型。