Human Action Behavioral Visual Recognition.
人类动作行为视觉识别是指利用计算机视觉技术,从视频序列或图像中自动识别和分析人体正在执行的动作或行为。它通常包含几个层次,从简单到复杂:姿态估计:定位人体关键关节点的位置(如头、肩、肘、腕等),形成骨骼图。这是许多行为识别的基础。-动作识别--行为识别--活动分析
双流卷积网络
3D卷积神经网络
CNN + RNN/LSTM 组合网络
基于骨骼关键点的图卷积网络
多模态融合: 结合视觉、声音、甚至文本(如视频字幕)信息进行更精准的理解。
自监督学习: 减少大量昂贵人工标注数据的依赖。
实时轻量化模型
Transformer架构的应用
