“横看成岭侧成峰,远近高低各不同。”这两句诗形象地概括了移步换形、造化万千的庐山风景,庐山的一峰一岭一丘壑,游人所处的位置不同,看到的景物也各不相同。人类视觉感知的一个关键点是将视觉场景解析为物体,并进一步解析为物体的各个局部,从而形成部分 - 整体层次结构。结构化视觉作为人们容易理解的神经网络语言,对于大脑的推理决策活动提供着基础支撑。
场景的结构化,通俗理解就是将我们所看到的一草一木,一楼一隅进行抽丝剥茧,叠层解刨分析。场景结构化描述是对场景的语义化理解,场景分割可以完成场景图像中视觉要素的识别、检测和分割,通过部分 - 整体层级结构诱导出丰富的语义概念和关系,从而在解释和组织视觉信息方面,以及视觉感知和推理的泛化方面发挥着重要作用。
智慧眼场景理解引擎,依托于星辰人工智能中台,基于深度学习算法构建了多层神经网络,模仿人脑的机制来分析和理解图像,可以从大规模数据中学习逐渐抽象的层次化特征,从而建立场景图像到语义类别的映射,使计算机能够充分理解场景内容进行推理活动。
场景理解引擎具有预训练、轻量级、时序性特点。
预训练
利用大规模无监督数据进行训练的预训练模型有着非常好的泛化性,只需在小规模标注数据上进行微调,就可以在相应任务上有所提高。场景理解引擎依托于AI底层基座星辰人工智能中台,涵盖图像应用各类场景模型,囊括智慧眼底层算法,支持可视化的模型效果评估,海量GPU资源分布式训练,预置模型调参及作业建模方式、自研高精度模型,不必从头开始构建,可以节省用户大量时间和成本。
轻量级
为了达到高精度的视觉感知,目前市场上的场景算法倾向于使用较大较深的神经网络结构,导致计算复杂度高、场景分割速度慢、限制了智能引擎在自动驾驶、视频监控、移动平台等场景中的应用。场景理解引擎基于快速和轻量级智能引擎,可以有效解决碎片设备之间的差异,不同训练框架的差异,实现快速的在端侧部署运行。
时序性
面对非静态的场景图像,视频中的物体由于拍摄角度、快速运动和部分遮挡等原因常常表现得模糊和多样,这使得对视频结构化分析难度较大。场景理解引擎利用多维循环神经网络、概率图模型和注意力机制等算法,可以通过挖掘时序上下文信息中的时序连续性提升场景分析精度,以云边协同视频结构化分析方法,在突发事件预警、上报、响应、指挥等各个环节实现及时有效的可视化指挥,满足突发事件现场实时图像传送和视频会商的快速响应需求。
场景理解引擎在泛安防、金融、医疗、工业、政务等领域得到广泛应用。
在医疗领域,一方面,根据医学检测图识别肿瘤、皮肤、心脏以及眼科等疾病,辅助医生高效完成诊断,提升基层医疗机构诊断水平。另一方面,通过使用细粒度场景识别理解模型,计算机视觉、传感器和视频流让很多安全性应用在临床和居家环境中变为可能,为医护工作者扩展了监测病人的能力,包括ICU中的患者监测、诊所中的行为监测、异常事件监控等。
在交通领域,针对目标模态多变、类型多样、动静混存的复杂场景,场景理解引擎通过对视频/图像资源进行深度学习分析,形成抽象、归纳、分析的结果,对人、车、物、行为等进行智能判断。
智慧眼承建的长沙市交通运输局TOCC项目,通过“视频+AI”形成了一套强大的交通视觉感知系统,基于结构化交通场景理解,对公交、出租、轨道、公路和水运等全行业状况进行实时监测,以标准化和规范化的管理体系为保障,服务于交通综合业务辅助与决策、行业监测与预警、应急指挥与调度、综合服务协调与管理等工作。交通运输局依托TOCC全面实时监测的功能,可进行现场调度指挥,30分钟内可召开全市交通系统的连线会议,实现了看得见、听得到、指挥得动的功能。智慧信控系统“站岗”路口,红绿灯会思考,视频AI获取实时车流和人流信息,综合平衡车辆通行和行人过街需求进而智能研判,再也不用空等红灯。此项目获评“新型智慧城市十大典型应用案例”,获得行业专家的高度认可。
在城市数字化应用中,纷繁复杂的口岸现场,实现异常旅客监控、高温旅客监控、安检图像监控、应急与可视化。至关紧要的安防场景,实现行李物品智能审图,智能安检系统能够对已部署的X光安检机具获取的百余类图像进行实时动态分析,并对限制携带物品进行实时动态预警和数据推送。
智慧眼场景理解引擎,正在解锁更多场景,为机器与人之间的交互方式提供更多可能。未来,智慧眼将继续深化“AI+”的应用,以星辰人工智能中台为创新载体,深入赋能场景,不断增强数字化与智能化能力,打造可视、可感、可分析、可决策的新型城市智能体。