网易易盾中文点选验证码识别方法

中文验证码一直是识别的难题，首先他分类的种类很多，常见中文都有3500个，而且一般中文验证码都会有变形，导致每一个文字都需要大量训练样本。假设每一个汉字样本需要100个，100×3500=35万个样本，所以标记的样本数量巨大，训练周期长，成本高。

而且通常需要点选的文字数量很多，需要同时全对也是一件不容的事情。假设单个字的正确率是90%，假设需要点选4个汉字，全对的正确率就是0.9的4次方，正确率也只有65%。所以非常困难。

网易易盾又是难上加难，字体模糊，还有变形，有些颜色和背景颜色太过于接近，会导致识别率降低

下面我们就以网易易盾中文验证码为例提供了一个识别方案。只需要点击的中文大图，决定点击顺序的中文文本（页面上是文本）。如下图所示

大图样例：

文本样例：

"意苗印"

再配合下面的样例代码，就可以获得正确的识别结果


import base64
import requests
import datetime
from io import BytesIO
from PIL import Image, ImageDraw
 
t1 = datetime.datetime.now()
 
#PIL图片保存为base64编码
def PIL_base64(img, coding='utf-8'):
    img_format = img.format
    if img_format == None:
        img_format = 'JPEG'
 
    format_str = 'JPEG'
    if 'png' == img_format.lower():
        format_str = 'PNG'
    if 'gif' == img_format.lower():
        format_str = 'gif'
 
    if img.mode == "P":
        img = img.convert('RGB')
    if img.mode == "RGBA":
        format_str = 'PNG'
        img_format = 'PNG'
 
    output_buffer = BytesIO()
    # img.save(output_buffer, format=format_str)
    img.save(output_buffer, quality=100, format=format_str)
    byte_data = output_buffer.getvalue()
    base64_str = 'data:image/' + img_format.lower() + ';base64,' + base64.b64encode(byte_data).decode(coding)
    # base64_str = base64.b64encode(byte_data).decode(coding)
 
    return base64_str
 
# 加载图片
img1 = Image.open(r'E:\Python\lixin_project\OpenAPI接口测试\test_img\49-1.jpg')
# 图片转base64
img1_base64 = PIL_base64(img1)
 
# 验证码识别接口
url = "http://www.detayun.cn/openapi/verify_code_identify/"
data = {
    # 用户的key
    "key":"MNhRvR5V6ArzCXAw16yY",
    # 验证码类型
    "verify_idf_id":"49",
    # 样例图片
    "img_base64":img1_base64,
    "words":"意苗印",
}
header = {"Content-Type": "application/json"}
 
# 发送请求调用接口
response = requests.post(url=url, json=data, headers=header)
 
# 获取响应数据，识别结果
print(response.text)
print("耗时：", datetime.datetime.now() - t1)

识别效果如下

想了解更多验证码识别请访问：得塔云

相关阅读:
OpenSSF 基金会总经理 Brian Behlendorf ：预计 2026 年将有 4.2 亿个开源
【Swift算法学习】 LeetCode 392 判断子序列
STL：stack和queue
基于高德引擎的天地图切片加载
OLAP引擎也能实现高性能向量检索，据说QPS高于milvus！
Spring初始（相关基础知识和概述）
PostGIS是什么
记一次Mybatis驼峰命名导致的线上BUG及处理方案
四级常见英语短语1000条
Web 3 中的零知识技术：现在和未来

原文地址：https://blog.csdn.net/Dxy1239310216/article/details/139727692