You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

批量身份证ocr

批量身份证OCR技术解析

身份证是我们日常生活中常见的证件,但是在大量数据处理的时候,手动输入身份证信息显然是繁琐且容易出错的。这时候,批量身份证OCR技术可以极大地减轻工作量和提高数据处理的精确度。

OCR,全称Optical Character Recognition,光学字符识别,是一种将印刷文件或手写文本转换成机器可编辑文本的技术。身份证OCR技术是在OCR技术的基础上,通过对身份证照片进行图像处理、字符分割、字符识别等步骤,实现自动读取身份证信息的过程。

下面我们基于Python实现一个简单的批量身份证OCR程序,以供参考。

  1. 准备工作

我们需要安装Python OCR库、Pillow库和OpenCV库。Python OCR库有多种选择,这里我们选用Pytesseract。Pillow库用于图像处理,OpenCV库主要用于图像识别

安装方式:

pip install pytesseract
pip install Pillow
pip install opencv-python
  1. 核心代码

我们将程序分为三个步骤:图像预处理、字符识别和结果输出。

import os
import pytesseract
from PIL import Image
import cv2

# 图像预处理
def pre_process(image):
    # 转化为灰度图像
    img = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
    # 中值滤波去噪
    img = cv2.medianBlur(img, 3)
    return img

# 字符识别
def ocr(img):
    # 识别身份证号码和姓名
    boxes = pytesseract.image_to_boxes(img, lang='chi_sim')
    res = ''
    for b in boxes.splitlines():
        if b.split()[0] in ["身份证号码:", "姓名:"]:
            res += b.split()[-1]
    return res

# 批量处理
def batch_process(input_dir, output_dir):
    for filename in os.listdir(input_dir):
        file_path = os.path.join(input_dir, filename)
        # 只处理jpg格式
        if os.path.isfile(file_path) and filename.endswith('.jpg'):
            print('Processing:', file_path)
            # 读取图像
本文内容通过AI工具匹配关键字智能整合而成,仅供参考,火山引擎不对内容的真实、准确或完整作任何形式的承诺。如有任何问题或意见,您可以通过联系service@volcengine.com进行反馈,火山引擎收到您的反馈后将及时答复和处理。
展开更多
对图片、视频中的文字进行检测和识别

社区干货

企业级智能OCR平台助力票据电子化|社区征文

该平台自研OCR服务可支持业务场景共18种,可识别证件三十余种,整体实现了对我司的高频OCR业务场景的实时响应,总体识别准确率达90%以上。 我司自研的智能OCR平台助力业务人员准确高效地从大批量票据中提取所需字段... 图3等多项OCR文本识别服务。该服务层经过多次升级迭代,目前已能够支持涉及较多的身份证、火车票、发票、营业执照、业务委托书等多种业务场景下60余种版式的快速智能分类、识别以及关键信息提取输出;同时方便部署人...

集简云本周更新:新增钉钉连接器、新榜有数、阿里OCR、EC等应用,更新道一云七巧、百应AI外呼系统、小鹅通等应用

平台支持批量更新微信阅读数、对指定微信公众号进行内容和数据回采、微信指数查询、微信文章搜索、舆情预警、一键导入微信图文、构建和管理自己的榜单等 官网:https://data.newrank.cn/ ![pic... Webhook+阿里OCR+表单系统:** 每当webhook接收身份证阅读器系统传来的数据时,阿里OCR自动识别身份证相关信息,并同步到表单系统中存储**2. RSS订阅+阿里OCR+表单系统:** 每当指定RSS有新增国外网站内容时,阿里O...

集简云3月更新合集:新增33款集成应用,更新10款应用

新应用:阿里OCR◉ 更新应用:微信小商店◉ 更新应用:用友**YonSuite**◉ 更新应用:循环执行 01**唯... **腾讯OCR** 文字识别(OCR)基于腾讯优图实验室世界领先的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别可以有效地代替人工录...

居家办公更要高效 - 自动化办公完美提升摸鱼时间 | 社区征文

能用代码批量解决的绝不操作两次,神器在手,天下我有,代码一粘,两手一摊,一劳永逸。多亏找到了这些神器,最近可被各种文档表格,各种数据搞疯了,脑瓜子嗡嗡的。在这上面还闹过一些小乌龙,为了相互转各种文档还当冤... 批量文字识别(**OCR**)是`Python`办公自动化的基本操作,应用在我们工作生活中的方方面面,比如车牌识别、证件识别、银行卡识别、票据识别等等。>> Python 中`OCR`第三方库非常多,比如`easyocr`、`PaddleOCR`、`cn...

特惠活动

录音文件识别 30小时

5小时内音频文件转写成文本,适用非实时语音识别场景
11.40/19.00/年
立即购买

录音文件识别50小时

5小时内音频转写,识别中文与方言
19.20/32.00/年
立即购买

一句话识别 30千次

短语音(≤60秒)实时识别成文字
19.50/30.00/年
立即购买

批量身份证ocr-优选内容

身份证识别-火山引擎
支持中华人民共和国第二代身份证OCR检测,包括身份证正面信息和反面信息的8个字段,正面信息:姓名,性别,出生日期,身份证号,民族,住址 反面信息:签发机关、有效期限
能力介绍
产品简介 支持中华人民共和国第二代身份证(包括少数民族身份证)的检测识别,可对身份证正反两面信息进行全字段解析。 产品优势识别字段齐全: 支持对身份证全部字段的自动检测与识别,包含姓名、性别、出生日期、身份证号、民族、住址等。 识别准确率高: 基于强大的深度学习算法和OCR技术,身份证识别准确度处于业界领先水平,支持图片倾斜、模糊等状况下的准确识别。 服务性能稳定: 依托云服务技术,支持高可用、高并发的文字识别,实...
火车票识别-火山引擎
火山引擎OCR识别支持对火车票上所有关键字段的自动定位与识别,包含火车票号码、起始站、终点站、车次、发车时间、座位号、票价、坐席等次、身份证号、姓名、售卖点代号、售卖点等字段信息。
H5Token配置
接口简介 在H5增强版中,如果需要同时跳过OCR上传图片识别、输入身份证号和姓名 这两个步骤,直接进行人脸认证流程。则需要将临时生成的H5configId和用户认证资料传入该接口,得到一个bytedtoken,并拼接到认证服务H5的URL中。该bytedtoken将作为本次认证的唯一凭证标识。 特殊说明 生成的byted_token会在生成的一段时间后失效,有效期为60分钟,请及时使用(仅支持认证一次,禁止重复认证)。 请求说明名称 内容 接口地址 https://visual...

批量身份证ocr-相关内容

流程概述

详细方案 方案一服务端上传用户资料(有源:身份证+姓名/无源:基准图),完成整体流程。在端上完成动作活体后,业务无需获取活体数据做额外流程处理。 对接步骤调用STS接口,获取临时密钥(获取临时密钥(STS)部分) 调用TokenPro接口,上传用户资料和参数配置(服务端API接入部分) 使用SDK接入,进行端上活体(客户端SDK接入部分) 调用Query接口,查询认证数据(服务端API接入部分) 方案二通过SDK进行OCR识别/手动输入获取用户资料(有源:身份...

纯API接入

接口简介身份认证(有源认证)纯API接入,不调用活体检测、ocr等算法能力,只上传姓名、身份证号、人脸图信息,直接请求数据源验证是否为本人 限制条件无 请求说明名称 内容 接口地址 https://visual.volcengineapi.com 请求方式 POST Content-Type application/json 请求参数(1)header请求参数公共请求参数 名称 类型 是否必填 示例值 描述 X-Date String 是 20201103T104027Z 使用UTC标准时间,日期精确到秒,格式:YYYYMMDD'T'HHMMSS'...

纯API接入(三要素)

接口简介身份认证(有源认证)纯API接入,不调用活体检测、ocr等算法能力,只上传姓名、身份证号、人脸图信息,直接请求数据源验证是否为本人 限制条件无 请求说明名称 内容 接口地址 https://visual.volcengineapi.com 请求方式 POST Content-Type application/json 请求参数(1)header请求参数公共请求参数 名称 类型 是否必填 示例值 描述 X-Date String 是 20201103T104027Z 使用UTC标准时间,日期精确到秒,格式:Y...

录音文件识别 30小时

5小时内音频文件转写成文本,适用非实时语音识别场景
11.40/19.00/年
立即购买

录音文件识别50小时

5小时内音频转写,识别中文与方言
19.20/32.00/年
立即购买

一句话识别 30千次

短语音(≤60秒)实时识别成文字
19.50/30.00/年
立即购买

食品经营许可证-火山引擎

字节跳动OCR食品经营许可证识别支持对所有关键字段的识别,包含证书类型、有效期至、许可证编号、住所、法定代表人(负责人)、社会信用代码(身份证号)、经营者名称、经营场所、日常监督管理机构、日常监督管理人员、主体业态、经营项目、签发人、发证机关、投诉举报电话等字段。

流程概述

详细方案 方案一服务端上传用户资料(有源:身份证+姓名/无源:基准图),完成整体流程。 对接步骤调用STS接口,获取临时密钥(获取临时密钥(STS)部分) 调用Token接口,上传用户资料和参数配置(服务端API接入部分) 端上集成3.1 若使用SDK接入,进行端上活体(客户端SDK接入部分)3.2 若使用H5接入,进行端上活体(客户端H5接入部分) 调用Query接口,查询认证数据(服务端API接入部分) 方案二通过SDK进行OCR识别/手动输入获取用户资料(有源...

文字识别SDK-火山引擎

可在无网或弱网环境下,在各类终端上集成文字识别能力,离线识别身份证、银行卡等文本信息,支持Android、iOS多种平台,达到毫秒级快速反应

TokenPro接口

接口简介业务已存有用户资料的情况下,可以通过服务端直接调用Token接口将用户资料进行上传,不进行端上OCR/手动输入。支持有源比对场景上传身份证+姓名;无源比对场景上传基准图。此接口同时支持进行端上动作活体的相关参数配置。 调用此接口,由于是从服务端发起请求,使用临时密钥/长期密钥均可。 限制条件无 请求说明名称 内容 接口地址 https://visual.volcengineapi.com 请求方式 POST Content-Type application/json 请求参数(...

产品动态

2022年10月17日 上线多语种OCR能力,支持54种语言检测和识别,可提供语种识别、结果识别、识别概率等信息。 2022年8月29日 更新营业执照识别服务,添加v2版本,可对图片中营业执照位置信息进行识别; 更新身份证识别服务,添加v2版本,可剪裁输出身份证以及证件人像,另外也增加对复印件、ps等证件类型的识别功能。

功能发布历史

2024 年 1 月变更 说明 发布时间 相关文档 智能降冷策略 新增:支持您对服务内存储的文件进行降冷操作,满足您资源周期性降冷/删除场景需求 2024-01-31 智能降冷策略 计费概述 后付费 资源管理 新增:批量删除、批量修改资源存储类型、批量恢复资源 删除资源 修改资源存储类型 恢复资源 用量统计 新增:资源占用量模块支持展示各类型存储用量和数据取回用量 用量统计 盲水印 新增: 添加水印模型:文本嵌入基础模型(彩色图片通...

特惠活动

录音文件识别 30小时

5小时内音频文件转写成文本,适用非实时语音识别场景
11.40/19.00/年
立即购买

录音文件识别50小时

5小时内音频转写,识别中文与方言
19.20/32.00/年
立即购买

一句话识别 30千次

短语音(≤60秒)实时识别成文字
19.50/30.00/年
立即购买

产品体验

体验中心

云服务器特惠

云服务器
云服务器ECS新人特惠
立即抢购

白皮书

从ClickHouse到ByteHouse
关于金融、工业互联网,都有对应的场景特性、解决策略、实践效果具体呈现,相信一定能解决你的诸多疑惑
立即获取

最新活动

爆款1核2G共享型服务器

首年60元,每月仅需5元,限量秒杀
立即抢购

火山引擎增长体验专区

丰富能力激励企业快速增长
查看详情

数据智能VeDI

易用的高性能大数据产品家族
了解详情

一键开启云上增长新空间

立即咨询