清华TH-OCR系统

清华TH-OCR SDK 简介

SDK:software develop kit 软件开发包

TH-OCR SDK的内容

TH-OCR SDK为其它程序使用TH-OCR进行汉字识别提供了编程的接口,并包含少量例子代码。

TH-OCR SDK的限制

SDK只提供开发接口,使用SDK开发出来的软件,需要为每套运行模块获得授权。

要求系统最小配置

486以上CPU, 8M以上内存,Win95、Win98或WinNT操作系统。

TH-OCR SDK的使用

1、接口方式:

使用windows标准的dll方式调用。用户可以通过dll中的函数调用SDK中的功能。

2、例子程序:

系统包括VC和VB的例子程序, 分别在VBdemo和VCdemo子目录中

(i) VCdemo,演示基本的文件识别功能

(ii) VBdemo,演示大部分的功能。

3、系统功能简介

本系统具有TH-OCR系统识别核心所有功能,包括

(i) 支持TIFF,PCX,BMP格式图象的读取,支持Packbits和G4压缩的TIFF格式。

(ii) 可以对图象由于扫描引起的倾斜进行自动校正。

(iii) 可以对图象进行自动版面分析。

(iv) 支持GB_2312码(大陆使用)、BIG_5码(台湾使用)、GBK、JIS、Shift-JIS、KSC等内码的输出。

(v) 能识别纯英文,简繁体中文、日文、韩文的文本图象

(vi) 根据识别结果能够进行版面恢复, 导出RTF,HTML两种文件格式

(vii) 支持对内存中的图像进行识别。

(viii) 能够获取识别字符在原文中的位置和大小信息。

(ix) 支持对指定区域的识别。

(x) 支持回调函数显示识别进度。

4、图像文件识别的过程示例:

(1) 执行初始化 Tw_Start();

(2) 开始识别 Tw_RecogFile(lpstrImageFileName,...,nOption);

(3) 识别结束 Tw_End();

TH-OCR SDK的版本

SDK分基础版、专业版、企业版等不同版本。各种版本的性能、功能、价格和加密方式不同。

基础版不加密,比专业版本略微差一些,差别包括:

· 识别率略低

· 不支持基于语言模型的后处理校错

· 不支持导出到RTF、HTML格式

· 没有表格处理功能

· 没有字符位置获取功能