清华TH-OCR系统
清华TH-OCR SDK 简介
SDK:software develop kit 软件开发包
TH-OCR SDK的内容
TH-OCR SDK为其它程序使用TH-OCR进行汉字识别提供了编程的接口,并包含少量例子代码。
TH-OCR SDK的限制
SDK只提供开发接口,使用SDK开发出来的软件,需要为每套运行模块获得授权。
要求系统最小配置
486以上CPU, 8M以上内存,Win95、Win98或WinNT操作系统。
TH-OCR SDK的使用
1、接口方式:
使用windows标准的dll方式调用。用户可以通过dll中的函数调用SDK中的功能。
2、例子程序:
系统包括VC和VB的例子程序, 分别在VBdemo和VCdemo子目录中
(i) VCdemo,演示基本的文件识别功能
(ii) VBdemo,演示大部分的功能。
3、系统功能简介
本系统具有TH-OCR系统识别核心所有功能,包括
(i) 支持TIFF,PCX,BMP格式图象的读取,支持Packbits和G4压缩的TIFF格式。
(ii) 可以对图象由于扫描引起的倾斜进行自动校正。
(iii) 可以对图象进行自动版面分析。
(iv) 支持GB_2312码(大陆使用)、BIG_5码(台湾使用)、GBK、JIS、Shift-JIS、KSC等内码的输出。
(v) 能识别纯英文,简繁体中文、日文、韩文的文本图象
(vi) 根据识别结果能够进行版面恢复, 导出RTF,HTML两种文件格式
(vii) 支持对内存中的图像进行识别。
(viii) 能够获取识别字符在原文中的位置和大小信息。
(ix) 支持对指定区域的识别。
(x) 支持回调函数显示识别进度。
4、图像文件识别的过程示例:
(1) 执行初始化 Tw_Start();
(2) 开始识别 Tw_RecogFile(lpstrImageFileName,...,nOption);
(3) 识别结束 Tw_End();
TH-OCR SDK的版本
SDK分基础版、专业版、企业版等不同版本。各种版本的性能、功能、价格和加密方式不同。
基础版不加密,比专业版本略微差一些,差别包括:
· 识别率略低
· 不支持基于语言模型的后处理校错
· 不支持导出到RTF、HTML格式
· 没有表格处理功能
· 没有字符位置获取功能