越来越多的技术:深度学习、AI、大模型、虚拟现实VR等慢慢进入我们的生活。**基于大模型的图像去雾**在今年这个阶段,我的主要工作是研究基于深度学习的图像去雾工作。随着现代工业文明的发展进步,大气污染现象愈... 数字图像质量的恶化会影响各种视觉任务的执行与处理。因此需要对图像进行预处理,以降低雾霾对其成像质量的影响。有雾的图像存在对比度低、饱和度低、细节丢失、颜色偏差等问题,严重影响对图像的分析,如分类、定位、...
# beginning2023年可谓是人工智能浪潮翻涌的一年,AI在各个领域遍地开花。以我最熟悉的工业为例,深度学习也在其中起着重要作用。不知道小伙伴们熟不熟悉工业领域的缺陷检测腻?🧐🧐🧐今天就以钢轨表面缺陷为例,和大... 就可以提出视觉测量的分析方法了,比如测量轨面的光带宽度、伤损的尺寸、轻重伤的总数这样的量化评价指标。有了视觉测量的信息之后,就可以分别定义各个尺度的数据分析、数据结构了,比如实例尺度的微观伤损形位的数据...
深度学习方法能以更方便的方式对特征进行提取,在图像分类、人工智能等领域取得了良好的效果。近些年来,一些研究人员开始将深度学习方法应用于癫痫发作检测领域。# 方法## 1融合GCN和transformer的癫痫自动检测... 后又在计算机视觉、多模态等领域都取得了不错的成绩,并逐渐扩展到其他领域。目前针对于脑电信号特征提取方面的研究还比较匮乏。基本模型为:![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn...
随着机器学习和深度学习的发展,AI技术也在不断地推陈出新,也融入到了在我的工作和生活中,今年以来我的主要研究方向便是人工智能的方向。 # AI技术 近年来,基于AI的预训练技术在文档理解任务方面取得了显着... 在深度学习方面取得了快速进展。 最近提出的基于AI的LayoutLMv3模型非常成功,LayoutLMv3 是文档 AI 中第一个多模态模型,不依赖于预训练的卷积神经网络来提取视觉特征,这样节省了参数并消除了区域注释。LayoutL...
在指定图像内容库中,通过图像文件快速检索视觉上相同或相似的图像信息,应用于视觉素材搜索、图像内容比对、拍照搜同款商品等场景。 核心优势 搜索效果出众基于大规模深度学习的视觉搜索算法,搜索精准度和召回率表现出众。 支持海量图库支持亿级海量图像数据建库索引,同时保障以图搜图毫秒级响应速度。 服务稳定可靠经过实际业务验证的大规模搜索流量承载能力,稳定支持高并发场景。 搜索算法定制根据客户业务场景需求,灵活定制视觉...
基于计算机视觉与深度学习技术,提供视频内容的编辑、生成、增强与分割等能力。视频生产可广泛应用于互联网媒体、短视频、娱乐直播、在线教育、广电传媒等行业应用
随着机器学习和深度学习的发展,AI技术也在不断地推陈出新,也融入到了在我的工作和生活中,今年以来我的主要研究方向便是人工智能的方向。 # AI技术 近年来,基于AI的预训练技术在文档理解任务方面取得了显着... 在深度学习方面取得了快速进展。 最近提出的基于AI的LayoutLMv3模型非常成功,LayoutLMv3 是文档 AI 中第一个多模态模型,不依赖于预训练的卷积神经网络来提取视觉特征,这样节省了参数并消除了区域注释。LayoutL...
# 1.前言从1956年AI概念的提出至今,人工智能技术已发展了60多年,22年12月底ChatGPT的横空出世使得生成式AI的全球爆火,ChatGPT的火爆出圈,也相继出现了文心一言、Midjourney等创新性的 AI 产品,互联网掀起的 AI 风暴可以说已经席卷了全球。一系列AI产品的出现当然引起了诸多的关注,年初我也作为一名AI小白进入了AI领域,通过时长近一年的学习和实践,总算对深度学习和计算机视觉方面有一定的了解了,这更加坚定了我继续努力探索A...
实现视觉语言特征的深度融合,其中 CogVLM-17B 在 14 个多模态数据集上取得最好或者第二名的成绩。12月15日,我们再次升级。基于 CogVLM,提出了视觉 GUI Agent,并研发了多模态大模型CogAgent。其中,视觉 GUI Agent 能够使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知, 从而做出规划和决策。![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/6c935e517e4f4b0c9c07a43fe34fb464...
# 📑前言> 对大模型的简单理解:有着大量数据进行的深度学习或机器学习的模型,这些数据可以通过训练过程自动调整以捕获输入数据中的复杂关系。这类模型通常具有较深的网络结构和较多的神经元,以增加模型的表示能力和学习能力。大模型的诞生影响,对如今发展的许多领域,诸如自然语言处理、计算机视觉和语音识别等等,都有着显著的成果!![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/179ca2b...
实现视觉语言特征的深度融合,其中 CogVLM-17B 在 14 个多模态数据集上取得最好或者第二名的成绩。12月15日,我们再次升级。**基于 CogVLM,提出了视觉 GUI Agent,并研发了多模态大模型CogAgent。**其中,视觉 GUI Agent 能够使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知, 从而做出规划和决策。![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/d46a02084db64ff8bf477df655c88be...
> 🍊作者简介:[秃头小苏](https://juejin.cn/user/1359414174686455),致力于用最通俗的语言描述问题>> 🍊专栏推荐:[深度学习网络原理与实战](https://juejin.cn/column/7138749154150809637)>> 🍊近期目标:写好... 即transformer模型在视觉领域的应用,当你对第一篇transformer了解透彻后,这部分难度不大,所谓先苦 后甜,所以大家还是要多花些功夫在第一篇文章理解上。🌾🌾🌾- `第三篇:`梳理VIT的代码,让大家对VIT有一个更加...
很容易钻到各种学习的细节中去,优点就是有些深度的认识和收获,发布的博客文章有区别于别人的内容,缺点有两条,一是学习进展慢,二是有时耗时很久都钻不出某个问题,人很抓狂。不管怎么说,由于文章是老猿从小白的基础上去学习知识的总结,还是圈了一群粉,目前在博客网站粉丝已超 5 万,并且获得了该网站 2020 年博客之星评选的季军,也算是无心插柳了。2020 年下半年,一个老同学联系老猿,他开办的公司主要负责计算机视觉应用类软件的...