Vision Transformer(ViT)在计算机视觉领域展现出卓越的应用潜力,正在成为该领域的引领者。通过将原本用于自然语言处理的Transformer架构应用于视觉数据的机器学习模型,ViT在图像分类、目标检测、语义分割等任务中取得了显著的成就。
ViT 是一种将原本用于自然语言处理的 Transformer 架构应用于视觉数据的机器学习模型。相比基于 CNN 的同类模型具有一些优势,并能够并行处理大规模输入的数据。CNN 采用的是局部操作,因而缺乏对图像的全局理解;而 ViT 则以并行和基于自注意的方式来有效地处理图像,使得所有图像块之间能够相交互,从而提供了长程依赖和全局上下文的能力。
下图展示了 ViT 模型中的图像处理流程。输入图像被分为较小的固定尺寸的图块,之后这些图块被展平并转换为一系列的标记 (tokens) 。这些标记连同位置编码一起被输入到 Transformer 编码器中,该编码器由多个自注意力和前馈神经网络组成。
FAN 是由 NVIDIA 研究团队开发的一系列基于 Transformer 架构的神经网络主干模型。该系列模型在对抗各种干扰方面达到了当前技术水平的最佳程度,如表格 1 所示。这些主干模型能够轻松适应新的领域,对抗噪声和模糊。表格 1 展示了所有 FAN 模型在 ImageNet-1K 数据集上所达到的准确率,无论是干净版本还是经过干扰处理后的版本。
GC-ViT 是 NVIDIA 研究部门开发的一种具有极高准确性和计算效率的新型架构。该架构解决了 Vision Transformer 中缺乏归纳偏置的问题。通过使用局部自注意力机制,GC-ViT 在参数较少的情况下在 ImageNet 上取得更好的结果,同时结合全局自注意力,可以实现更好的局部和全局空间交互。
Segformer 是一个轻量级且具有鲁棒性的基于 Transformer 的语义分割模型。其由轻量级的多头感知层组成。它避免使用大多 Transformer 使用的位置编码,可在不同分辨率下进行高效推理。
随着人工智能(AI)技术的不断发展,AI视觉识别技术在各个领域得到了广泛应用。AI视觉识别技术通过模拟人类视觉系统,使计算机能够理解和识别图像和视频中的内容。下面将介绍十个AI视觉识别技术的典型应用场景。
在智慧城市建设中,AI视觉识别技术被广泛应用。通过对城市中的摄像头图像进行实时监测和分析,AI视觉识别技术可以实现交通管理、安全监控、环境监测等功能。例如,它可以识别交通流量,实现智能交通信号控制和拥堵预警;还可以识别人员可疑行为,物品异常状态,如持刀识别、灭火器缺失识别、积水识别等提高公共安全管理水平。
在智慧工业领域,AI视觉识别技术可以帮助实现自动化安全生产和质量控制。通过皮带跑偏识别、仪表盘识别等实现安全监管,以及工业视觉识别检测产品的外观、尺寸、缺陷等特征,AI视觉识别技术可以实现产品质量的自动监测和分拣。这有助于提高生产效率、降低成本,提升产品质量和用户满意度。
在建筑施工领域,AI视觉识别技术可以用于安全监控和工地管理。它可以识别工地中的人员和设备,实现人员进出管理、安全施工监测、设备使用监测,例如人脸识别、安全帽识别火焰识别、反光衣识别、重型机械识别、渣土车识别等等,检测和预测潜在的安全风险,及时采取措施避免事故的发生,提高工地的安全性和管理效率。
AI视觉识别技术在智慧园区的管理中起到重要作用。通过识别和分析园区中的人流、车流和设备运行状态,AI视觉识别技术如人脸识别、车牌识别,可以帮助园区实现智能巡逻、停车管理、资源调配等功能。它可以提高园区的安全性和便利性,优化资源利用效率,提升园区的整体管理水平。
AI视觉识别技术在智慧交通领域具有广泛应用。它可以识别车辆、行人和交通标识,实现智能交通管理和优化。例如,通过识别车牌号码,可以实现电子收费和车辆违规监测;通过识别行人闯红灯和交通标识,可以实现智能人行道管理和交通流量控制;通过自动识别车辆违规行为,可以大幅提升交通违法审核效率。
在能源领域,AI视觉识别技术可以用于能源设施的监测和管理。通过识别和分析太阳能光伏板和风力发电机的缺陷、异物等信息,AI视觉识别技术可以实现能源设施的自动化监测和维护预警。提高能源行业人工巡检维护效率,以及设备的效率、寿命,减少能源浪费,推动可持续发展。
AI视觉识别技术在餐饮行业中的应用也十分重要。通过识别餐饮后厨的安全规范操作如口罩识别、老鼠识别、垃圾满溢识别、厨师服识别等待,AI视觉识别技术可以实现明厨亮灶和食品安全监管,保障消费者的饮食安全,提升餐饮行业的服务质量和形象。
8、智慧水务AI视觉识别技术在智慧水务、水利方面可以提升整体的巡检监管效率。AI视觉识别算法可以结合无人机对河湖管理智能分析预警,例如河道违建识别、岸边垃圾识别、船舶入侵识别、水体颜色识别等等,无人机+AI视觉识别技术,可以自动监测预警,大幅提升巡检效率,有效保护河湖、水生态环境,加强水环境治理。9、智慧零售
AI视觉识别技术在零售门店、商城等方面也能发挥重要作用。它可以对门店顾客的人流量进行实时统计和分析,帮助零售商了解客流量的高峰期和低谷期。基于这些数据,零售商可以优化店内的布局和商品陈列,提升销售效果。此外,还可以根据人流量的变化调整员工的排班,实现人力资源的合理配置。还可以通过识别顾客在店内的停留时间、观看商品的次数以及交互行为,可以了解到哪些商品受到顾客的关注和喜爱。这有助于零售商根据顾客的偏好进行产品定制和推荐,提供更加个性化的购物体验。总的来说,AI视觉识别技术可以帮助提升智慧零售的效率、客户体验和竞争力,推动零售业的数字化转型和发展。
AI视觉识别技术在智慧养老领域具有潜力。它可以通过识别和分析老年人的行为和生理特征,实现智能健康监测和照护。例如,通过识别姿势和活动模式,可以实时监测老年人的健康状况;通过识别面部表情,可以了解老年人的情绪状态。这有助于提高老年人的生活质量和安全感。
综上所述,AI视觉识别技术在智慧城市、智慧工业、智慧工地、智慧园区、智慧交通、智慧能源、明厨亮灶、智慧水务、智慧零售和智慧养老等多个领域都有着广泛的应用前景。随着技术的不断发展和创新,相信AI视觉识别技术将为各行业带来更多的便利和创新,推动社会进步和经济发展。
用的解决方案是:边缘AI智慧盒内置视觉计包算法,部署在多条工业生产线。配合摄像头对传送带上的包状、盒状货物进行计数。
视觉不但是生物演进过程中的里程碑,随着智能时代的到来,也成为智能终端最重要的基础能力之一,在交通管理、消费电子、工业智造、智能汽车等诸多领域有着广泛的应用。“无图无”,视觉是这些产业最不可或缺的能力,先后经历了看得见、看得清、看得懂的不断升级,伴随着从模拟,到数字化、网络化、智能化的演进。在视觉技术使能的众多产业蓬勃发展的大潮中,海思深耕ISP图像处理、视频编解码、AI计算等核心技术,以更清晰更智能的视觉SoC芯片方案,与产业伙伴共同推动产业从高清到超高清的升级,不断提升全天候图像画质,挖掘视频数据价值,使能更多行业应用。
从智慧城市、智能汽车等行业的应用来看,视觉技术面临的主要挑战来自全天候图像捕获、价值数据获取等方面。虽然目前整个产业已经进入4K/8K超高清时代,但是“看得清”仍然是产业升级动力之一,尤其是低照度、逆光等场景,仍然是业界公认的难题,普遍存在视频画质差、目标不清晰、进而影响后续AI识别率等难题。
海思多年来深耕ISP图像处理技术,通过不断超越的技术手段,即使在极端的低照度和逆光等场景,也能提供令人惊艳的画质。
在暗光场景,海思综合利用8级3D降噪和多光谱融合多种技术提供了业界最优秀的暗光成像品质。其中8级3D降噪技术利用8级滤波器进行降噪处理,它可以在空域滤波过程中同时实现图像去噪和增强,以及在时域滤波过程中混合两种不同的时间模式。8级3D降噪技术还包含两个用于细节增强的IE模块和一个锐化模块,可以在实现更强的去噪的同时,保留并增强更多的图像细节。而多光谱融合则通过红外补光,在ISP将可见光、850nm、940nm等常见光谱融合,在不增加光污染的同时,最终使图像效果达到暗光全彩,细节纹理丰富,过曝区和非过曝区准确处理。
例如在光线不足的地下停车场,海思的8级3D降噪与多光谱融合技术结合能够让图像达到暗光全彩的效果,细节纹理更加丰富,噪声大幅降低,能够在暗光下精准记录信息,大大减少视觉死角。
在逆光等高动态范围场景,海思能够基于图像目标区域(隧道出入口等)进行检测及分类,实时调整曝光策略,提升特定区域的成像效果。在静态场景,在目标辨识度、整体细节、清晰度、色彩饱和度等方面,表现均优于业界领先水平;在出入隧道等动态场景,海思技术在实测中表现出曝光准确,调整迅速的特点,对行车安全有很大帮助。
近年来数据、算力、算法不断进步,特别是视频数据与AI结合,极大地推动了智能终端的升级和广泛应用。全联网、全高清带来图像质量大幅提升的同时,也带来庞大数据量,从视频到结构化数据的智能转换成为行业发展重点。上海海思在2016年布局AI视觉处理芯片,2018年推出跨时代旗舰处理器,引领视觉相关产业向AI化发展,帮助行业合作伙伴在海量场景中快速获取价值目标信息。
由于端侧的特点,实现算力的同时需要综合考虑成本、功耗等多种元素。深度神经网络计算的特点是基于大量的矩阵乘法,分解下来的最基础单元是MAC乘加运算。海思通过自研的达芬奇魔方架构对矩阵乘加计算进行加速,并针对智能终端的特点,提供新一代高性价比达芬奇端侧AI引擎,通过硬件和软件结合的优化,实现PPA(Performance Power Area)以及MAC利用率大幅领先行业水平。仅有算力也是不够的,为了满足不同的应用场景和开发需求,开发者还迫切需要更容易使用的开发套件,高效率高质量的完成开发。海思AI芯片支持业界主流开发框架:PyTorch、TensorFlow、Caffe、MindSpore,并且支持ONNX开放神经网络交换格式,能够灵活适配不同的开发框架。
除了基于神经网络的应用,海思还深入分析智慧视觉应用的特点,结合丰富的实战经验,将部分计算机视觉的算子直接硬化集成,例如图像缩放、颜色空间转换、基本滤波处理、目标检测、车牌识别、3D深度检测等基础CV算子,不仅运算更高效,而且开发更便捷,可广泛应用在智慧城市、无人机、机器人、AGV、辅助驾驶等多种场景。
当视觉进入AI时代,智慧视觉也逐步成为必不可少的社会效率工具。例如智慧停车场将停车场管理带入无人值守时代,利用摄像机+AI自动识别车牌,从取卡到“无感”,降低了人力和卡片维护系统成本,提升了驾车出行的效率。
从刷卡到非接触打卡,从人员值守到快速通勤,智慧视觉在办公场景的应用也大大提升了园区管理的效率。2020年疫情期间,实体打卡、接触式指纹识别打卡逐渐被智能打卡取代:多通道智慧视觉能力被应用于众多智慧打卡机、通道闸机中,与感知融合,提升通勤效率同时减少人员接触,有力保障了园区有序管理。
基于滤波等传统技术的图像处理技术在暗光、宽动态等场景的效果逐渐遇到一定的瓶颈,获得显著的改进越来越困难,而利用AI进行图像增强逐渐成为研究新热点并取得了显著的进展。根据海思研究表明,利用神经网络技术对图像中的噪声进行检测和去除,叠加多光谱技术不仅更好的区分了运动物体和静止背景,而且改善噪声形态及提高信噪比,0.1 Lux下智能识别率预估可达到95%以上。除了暗光去。