验证码图标不显示怎么办(手机条码扫描app推荐)

一、前言

今天给大家分享的实战项目是常用验证码标注&识别,从想法诞生到实现思路,再到编码实战的整体过程,这个过程我前后整理了上万字,计划分章节来发布。言归正传,一起来看看今天的内容吧!今天这篇内容主要讲解这篇文章的创作灵感、需求分析和实现思路。

首先介绍一下验证码基本概念,验证码全称为全自动区分计算机和人类的图灵测试(Completely Automated Public Turing test to tell Computers and Humans Apart,简称CAPTCHA),俗称验证码,是一种区分用户是计算机和人的公共全自动程序。验证码的主要目的是强制人机交互来抵御机器自动化攻击,为了确保服务器系统的稳定和用户信息的安全,大部分网站采用了验证码技术。图片验证码是目前最常用的一种,本文也主要讨论这种验证码的识别。

最初,图片验证码识别的想法最初源于12年的大学阶段,当时的学校教务系统每次抢课系统就崩溃,而且还要特定时间段跟其他同学一起抢指定课程,基本抢不到自己想修的课程,那时候就想绕过系统图片验证码通过代码实现自动抢课,鉴于当时自己编码能力和技术能力有限,机器学习、神经网络相关框架效果较差,最后以各种条件限制实现不了告终~~

XDM,等等,故事还没完,时间回到2021年,做为一名勤于搬砖、善于思考学习的程序猿,在经过几年社会的毒打后,想着以现在自己的项目经验、学习能力和编码功底,以及行业内机器学习、神经网络等AI技术的发展,能不能把多年以来的想法给实现,达到图片验证码高正确率识别预测,训练一个高度可用的CNN模型。在做项目之前经过笔者几天的资料查询过程中,确信高可用的验证码识别模型想法是可以做的,于是开启了CNN神经网络等技术前置知识的漫长学习过程。

几个月过后,项目编码实战出炉,效果嘛,自我感觉还行,基本达到高可用,500张训练数据图,CNN模型单个字符97%以上准确率。

这里先贴项目的工程Git地址,有基础的同学可以去直接拉取项目下来把玩源码:

[Java后台-通用验证码标注系统](https://gitee.com/snowball2dev/DataMarkService) 
[Vue管理后台模板-通用验证码标注系统](https://gitee.com/snowball2dev/DataMarkService-Vue)
[Python-图片验证码识别模型案例](https://gitee.com/snowball2dev/VerifyCodeRecognize-Python)
[标注系统线上效果体验地址](http://139.9.191.103:8084/)

好的,XDM,如果到这里还有兴趣往下看的话,那么就请跟随结合笔者的学习、编码实战过程来了解常用的验证码识别方法和过程。

二、需求分析

说到图片验证码识别功能,这个功能初步想想也简单,网上搜一下关键词,相关文章和开源项目非常多。以下是github搜索结果:

Python项目实战篇,常用验证码标注和识别(需求分析和实现思路)Python项目实战篇,常用验证码标注和识别(需求分析和实现思路)

乍一看,好像真有免费的午餐,随便下载个CNN-python项目,改几行代码,然后开始疯狂标注数据过程,就能跑出来模型。

笔者自己最初也是这么想的,只求简单粗暴,于是弄了几个项目下来跑了之后,发现代码是可以用,但是效果非常拉跨,单个字符识别正确率很低,70%不到,4-6个字符那正确率就更低了,基本上达不到高正确率,可用性非常一般。对于一个有追求的程序猿,不可能这么就完事了,于是,这就有了这个项目的整活。

在使用这些开源项目的过程中,发现下载的项目实现过程大都分为2种思路,第一种无需图片切割,直接数据标注训练模型;第二种为图片验证码进行字符切割,然后为单个字符进行分类训练。项目执行的具体过程就不演示了,有兴趣的读者开源自行捣鼓,下面就是笔者自己对2种思路适用方式的实践思考总结:

1. 第一种无需图片切割

优点:简单粗暴,通用性强,直接用各种卷积神经网络模型硬怼图片验证码提取特征,适合知道验证码生成的正向代码过程,用代码生成图片验证码数据给模型训练。

缺点:数据量小时模型拟合效果差,需要大量人工标注数据,不太适合不知道验证码生成规则,少量标注数据。

2. 第二种进行字符切割

针对验证码生成规则,分析验证码各种背景干扰、噪声点像素、字体形变和累叠、字符位置随机及个数不定、反色等情况,对图片逆向处理,达到局部字符可切割,降低卷积模型层次,降低数据标注量,实现字符分类。

优点:可针对单一图片验证码做特殊预处理,可实现部分字符切割,针对字符小图进行分类训练,小批量数据标注就可以训练模型达到高拟合效果,达到可用

缺点:通用性不强,训练模型只适用特定图片验证码,复杂验证码可能无法切割XDM,等等,还有一种思路:

笔者自己学习OpenCV时想到的,通过图片预处理,轮廓检测,然后对A-Z,0-9字符通过SIFT算法进行特征提取,最后跟需要匹配的字符进行FLANN匹配,理想很丰满,然后编写相关代码后发现由于验证码的正向生成过程导致字符特征变化太大,并不适合,于是放弃采用该思路,代码见上述代码链接中的python项目image_match.py。

根据以上思路总结,根本没有免费的午餐,好的数据和特征工程同等重要,要实现好的效果,都是要根据具体问题具体分析,所以笔者分析自己的图片验证码识别案例,更适合第二种,另外一点原因大批量标注数据人工成本过高,个人不太喜欢。以下将附带案例详细介绍第二种识别思路的实现过程。

三、实现思路

根据需求初步分析,大概可分为四个步骤:

1. 数据采集/预处理:http批量下载,OpenCV API使用学习,图片预处理

2. 数据标注:GUI标注功能开发,人工标注数据阶段,模型训练后预测数据可进行数据集补充

3. CNN神经网络模型训练:windows环境,cpu/gpu,学习神经网络框架API,微积分、线代、概率论等前置知识,加深对神经网络模型理解,pytroch框架的使用

4. 项目部署:linux环境下,标注系统VUE前端部署、标注系统Java后端部署、Python模型部署

以下是Xmind脑图导出效果:

Python项目实战篇,常用验证码标注和识别(需求分析和实现思路)Python项目实战篇,常用验证码标注和识别(需求分析和实现思路)

四、总结

我是Snowball。这篇内容主要讲解了常用验证码标注&识别的背景知识, 介绍了验证码的基本概念,讲述了这个文章的的创作灵感、需求分析和实现思路。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至624739273@qq.com举报,一经查实,本站将立刻删除。
Like (0)
柳的头像

相关推荐

  • python基础代码实例详解(python基础代码大全)

    整数规划(IP)问题是所有变量都被限制为整数的优化问题(指规划中的变量(全部或部分)限制为整数,若在线性模型中,变量限制为整数,则称为整数线性规划)。IP问题是有关于如何最好地分配…

    2024年8月28日 投稿
  • 新媒体运营面试常见28个问题

    01.你觉得新媒体是什么? 很普遍也算有难度的问题,百科百科有相关词条,但重在总结。 从知识层面:微信像新媒体的一个缩影,新媒体相较于传统四大媒体(报刊、广播、电视、户外)是所有数…

    2024年10月6日 投稿
  • 在线客服有哪些特点,哪个在线客服平台好

    在线客服系统一般有哪些标准的功能呢?从整体的设计结构以及系统工作的原理来讲,一般分为几大模块: 1、 渠道接入:客户有可能与企业进行接触的不同触点,或者企业规划的固定服务窗口,视为…

    2024年8月24日
  • 茶叶网站推广的实施方案(浅析茶叶销售多样化)

    尽管现在茶叶市场不景气,但茶叶的需求量依然有增长的趋势,这对于闽中茶网来说,既是机会也是挑战,追根揭底就是如何让茶叶市场依然有前景?怎么样占有更大的市场份额?在激烈的竞争中获得优势…

    2024年8月27日 投稿
  • 局域网聊天工具(公司内部聊天软件推荐)

    现在对于金融和银行机构而言,沟通与协作比以往任何时候都更加重要。有度为金融组织提供了改进沟通、降低数据丢失和减少安全漏洞的工具——内网即时通讯工具,它可以为团队成员提供了一个强大而…

    2024年9月1日 投稿
  • 如何做线上推广,十个有创意的线上活动

    运营推广在整个运营环节里面起到非常大的作用,同时也是压力非常大的一个职业,围绕着我们的只有KPI,数据。要想做好这个环节我们一定要具有很强大的抗压能力,沟通能力,执行能力,数据分析…

    2024年8月26日 投稿

发表回复

Please Login to Comment
微信
微信
SHARE
TOP
要想花得少,就用购宝。话费电费9折起,官方公众号:购宝