新闻中心

首页  >  新闻中心  >  新闻详情

智合同丨OCR是如何在合同业务中使用?

2022-09-16发布
【摘要】 智合同丨OCR是如何在合同业务中使用,你知道吗?

说到OCR,有些朋友可能不太了解,其实OCR您早就有使用过,比如您想把一个图片或者PDF格式的文本通过相关软件做转化,使其变为可编辑文档,那么您用的就是OCR工具。

概念:

OCR是1929年德国科学家Tausheck提出的概念。



OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

智合同通过对合同智能化领域的多年研究,发现传统的OCR转化的合同文本在整个合同全生命周期管理过程中,转化效果的准确率要稍低一些,于是智合同通过自主研发,于原有OCR的基础上,在语义后处理阶段加入了语义理解分析和版面还原技术,实现了转化本文的原格式保留且通过语义理解分析后,纠正OCR转化的错误信息,比如:合同中有一个词是“小时”,传统OCR转化为“小吋”,我们通过语义理解分,判定在合同中不会出现“小吋”这个词,对此纠错变换为“小时”,这样做的目的是提升OCR转化的准确率,此处智合同对此命名为“ICR”。我们具体看看智合同ICR智能识别的具体应用。



1.ICR智能识别

1.1.功能描述

识别合同/附件扫描件(pdf/图片),转换为计算机可识别和参与运算的文本。ICR识别在传统的OCR技术基础上融合了NLP语义理解技术,可以将OCR技术无法准确识别的字,通过在句子中的语义进行修正,大大提升文字识别率。




1.2.使用场景

(1)在用户合同管理系统中,推荐使用doc文件,但是也允许上传pdf文件。因此,如果经办人上传的文件是pdf格式,在进行要素提取时,需要将其转换为可以进行文字识别的doc格式,然后才能进行要素提取。

(2)在用户合同管理系统的用印模块中,可以将合同扫描件与审批后的合同进行比对,需要将合同扫描件转换为可以进行文字分析的doc格式文件才能实现合同版本比对。

通过对以上内容的了解,在以后合同相关业务处理上,我们是不是又get到了新技能!


上一篇:AI合同先驱丨智合同为智能合同应用提供多元化服务 下一篇:智合同丨企业数智化转型,AI技术功不可没
400-865-8505

打开微信扫一扫,关注公众号