Human Action Behavioral Vision Identification.
人类动作行为视觉识别是指利用计算机视觉技术,从视频序列或图像中自动识别和分析人体正在执行的动作或行为。 它通常包含几个层次,从简单到复杂:姿态估计-动作识别-行为识别-活动分析
双流卷积网络
3D卷积神经网络
CNN + RNN/LSTM 组合网络
基于骨骼关键点的图卷积网络
多模态融合: 结合视觉、声音、甚至文本(如视频字幕)信息进行更精准的理解。
自监督/弱监督学习:
实时轻量化模型: Transformer架构的应用:
