全面进入AI大模型时代,安防领域将跨越式升级
发布日期:2023-11-16 浏览:178
近几年来,随着5G、AI、IoT、大数据、云计算等新兴技术与安防行业的高度融合,让安防的边界越来越模糊,万物互联到万物智联时代主旋律下,智慧物联(AIoT)打开了安防新的市场空间。
随着安防行业的快速发展,传统的安防方式已经逐渐被以视频为核心的智慧互联所取代。这种转变使得下游应用呈指数式增长,同时也对AI技术提出了更高的要求。在AIoT领域,如何将技术创新与市场需求有效结合成为了行业发展的关键。
在传统安防时期,算法的针对性较强,主要依赖于小模型的专用算法。然而,随着应用场景的不断扩大和复杂化,这种小模型算法已经无法满足需求。因此,我们需要借助大模型的泛化能力来推动行业的发展。
一、AI赋能安防从看得清到看得懂,从传统安防到智慧物联 AI赋能安防从“看得清”到“看得懂”,传统安防逐步转变为智能物联。安防视频监控分为“看得见”、“看得清”、“看得懂”三个阶段。 以中国为例,在第一阶段“看得见”中,主要的驱动力是以视频作为常见事件的证据形式,作为安检侦破的重要线索,目前全国已经基本实现了主要城市街区的无死角监控;在第二阶段“看得清”中,主要的驱动力为十三五规划、十九大报告、公安部雪亮工程以及《超高清视频产业发展行动计划》等,高清实时编码SoC芯片成为市场主流助力高清需求实现;在第三阶段“看得懂”中,AI的发展使得安防系统从被动的记录和查看转化为“事前有预警、事中有处置、事后有分析”,车牌识别发展为车辆数据结构化分析、人脸检测发展到人脸比对、目标全结构化分析、行为处事检测分析等新技术逐步落地,强大算力运行AI算法,运用海量数据,使得行业边界逐渐模糊,需求也从安全转变为降本增效,传统安防逐步扩大范围,转向智慧物联大行业。 过去十几年,国内安防行业相继解决了“看得见”、“看得清”、“看得懂”的问题。 尤其在解决“看得懂”的问题时,仅通过视频手段已无法实现,安防企业于是借助物联网技术,大大提高了识别的结果和效率。 在这个过程中,人工智能、大数据、数字通信、AIoT等技术与实体经济的深度融合,几乎渗透进了安防企业的全系列产品中,技术创新和产品迭代升级加速。 二、安防企业为什么能成为AIoT的主力军? 那么,安防企业为什么能成为AIoT的主力军? 首先,智能安防是进入智慧物联市场的绝佳通道。 在AIoT世界,一切智能都要以感知为基础,其中视频是数据的一个强入口,源源不断产生的高质量数据是数字化时代的新的生产要素。安防行业一直在智慧物联的典型场景中,天然的感知能力,顺其自然成为一切智能与数字化的基础,经过千锤百炼的视频能力已成为他们的强项。 其次,安防企业有足够的能力跻身智慧物联行业。 从安防厂商,到以视频为核心的智慧物联解决方案提供商,到不再只强调视频,增加非视频的投入,他们一边扩充产品线,一边在智能技术上进一步投入感知智能、认知智能。对智慧物联行业意义重大的大模型,也早有部署。比如大华,已经利用AIoT和大模型技术,广泛地感知和连接以视频为核心的泛在物联数据,让客户获得高质量的数据资源。 AIoT产业与安防产业极其相似,都是一场事关场景碎片化、硬件制造经验、整体解决方案的综合能力的比拼。从安防场景中磨砺出来的传统安防企业,进入智慧物联时代有较大优势。 再者,传统安防企业已经建立了广泛的客户基础。 面对数字化升级愿望迫切的客户,谁能“多快好省”地落地智慧物联产品和方案,更稳定的运行设备,谁就能在数字化的落地和升级上快走一步。 在安防行业发展过程中,一些公司已经成长为世界著名品牌,获得了包括政府机构、企业和消费者的信任,因此客户更容易接受他们的智慧物联产品和服务。 安防自带AI和物联的属性,好比是在安防领域与智慧物联领域之间架起了一根管道,使前者向后者的过渡变得自然、顺畅。 目前,传统安防已经发展为以视频为核心的智慧互联,下游应用呈指数式增长,基于小模型的专用算法无法满足需求,需要大模型的泛化能力助力行业发展。 三、通用大模型VS微调后的行业大模型? 根据中国信通院、腾讯云和腾讯标准发布的《行业大模型标准体系及能力架构研究报告》,通用大模型在多任务与领域上可表现出较好性能,但无法精准解决行业的特定需求与问题。 通用大模型如果想在特定行业中发挥SOTA模型效果,其参数数量会比同样效果的行业大模型多数十倍、甚至百倍,根据OpenCSG,在特定的垂直应用中,通用大模型千亿甚至万亿参数达到的效果,垂直大模型百亿参数也可以达到,成本相对较低,相比ChatGPT的10亿人民币以上的硬件投入(仅训练),彭博金融大模型硬件端投入仅约1200万元(仅训练)。 以工业领域为例,该场景需求中精准测量、缺陷检测等功能可以通过结合视觉能力、各类型装备实现,在大模型基础上用更小样本的训练,可实现更加快速和准确的识别,且成本和效果平衡,有助于商业化落地。 以近期北大的ChatLaw为例,该团队构建了口语化咨询诉求到法律专业词汇抽取模型,在检索端结合关键词+向量检索技术,依靠13B的模型在2000条司法问答数据中,Elo评分机制下得分超越gpt4。其表现优于gpt4的一大原因是构建了类似于国家司法考试的多项选择题来训练本文的模型,这也表明了基于对细分行业的场景需求,选择细分行业的数据进行训练即可使得其表现优于通用的大模型。 单模态VS多模态? 在智慧物联的时代,数据呈现着多模态及复杂关联的特性,如文本、图像、声音等,根据机器学习杂货铺3号店公众号,视频动作识别技术在泛安防有着广泛的使用场景,由于摄像头需要部署在各个地点,摄像机姿态各有不同,需要多视角挖掘共同表征,因此泛安防对于多视角视频识别与分析有更急切的需求,而视频理解存在数据集缺少,视频语义复杂多变,视频多模态语义融合,非线性流的视频理解等多种问题。 在多模态模型下,对于标注的精准性要求更低,可以使用弱标注的图片描述数据,语义更为通用,且可以改善长尾问题,输入多模态数据可提高模型精度,对语义相近的场景更加友好,减少误判,因此我们认为,多模态模型将更适合智慧物联。 (1)多模态可缓解长尾的标签标注压力。 以YouTube视频数据为例,YouTube8M数据集具有6.1M的视频量,共3862个标签,平均每个视频有3个标签,呈现明显的长尾分布。 Instructional数据集在WikiHow中挑选了23,611个howto任务,为检索词query在YouTube上进行搜索,生成大规模的带噪声的文本-视频样本用于多模态任务预训练,我们可以看到112个大类的howto视频也呈现长尾分布,这类广泛存在的长尾现象使得事无巨细的样本标注不可行。 文本-视觉之间语义的桥梁分为语义对齐(Semanticalignment)和语义融合(Semanticfusion),通过语义对齐完成视觉元素映射(基础视觉语义),并通过基础视觉语义的融合形成复杂视觉语义与抽象的视觉氛围,在多模态融合方法中,模型可以通过场景描述文本““treesina'wintersnowstorm”学到“tree”的概念,还有可能学到“snowstorm”,以此来缓解长尾问题导致的标签标注压力。 (2)多模态数据可提升模型精度。 以田间作物产量预测为例,相关研究团队通过融合基于无人机的多模态数据(融合基于无人机的RGB、高光谱近红外(HNIR)和热成像图像)进行田间作物产量预测,提出了MultimodalNet的新型模型,融合效果精度高于任意单一模态。 微调后的多模态行业大模型+边侧小模型或将是未来几年最适合智慧物联的形式。 但单纯依靠云端的多模态行业大模型会存在一些问题。 大模型规模较大,难以部署在边缘设备上,只能以云的形式提供服务,但云有较高的时延,一线生产中的数据处理和控制等网络主要是内网,需要更加稳定的网络和及时的处理,将这类需求送至云端并不合适,且由于本地数据量大,全部“上云”成本高企且存在隐私风险。 边侧算力不足无法运行大模型,但是可以通过知识蒸馏等方法,用teacher模型训练student模型,用教师模型的输出作为软标签来指导学生模型的学习,且能较好保全原有模型的功能,实现云边协同,保证私域安全性以及更好的实时性。 基于分析,我们认为,微调后的多模态行业大模型+边侧小模型或将是未来几年最适合以视频为核心的智慧物联行业的形式。