深度学习视频理解

副标题：无

作者：张皓

分类号：

ISBN：9787121419805

收录收藏 (0) 评论纠错

微信扫一扫,移动浏览光盘

简介

简介

视频理解是计算机视觉和深度学习的一个重要分支。本书对视频理解的3个重要领域进行介绍，对于每个领域，本书不仅解释了相关算法的原理，还梳理了算法演进的脉络。全书共分6章，第1章简要介绍视频行业的发展历程；第2章回顾经典图像分类模型和RNN；第3章和第4章介绍动作识别的重要算法；第5章介绍时序动作定位的重要算法；第6章介绍视频Embedding的重要算法。后总结了常用的一些视频处理工具。【目录】第1章绪论 11.1 引言 11.2 本书内容 51.2.1 图像分类 71.2.2 动作识别 91.2.3 时序动作定位 121.2.4 视频 Embedding 141.3 本章小结 15第2章经典网络结构回顾 162.1 经典图像分类网络 162.1.1 LetNet-5 162.1.2 AlexNet 182.1.3 VGGNet 222.1.4 GoogLeNet 242.1.5 Inception V2/V3 272.1.6 ResNet 282.1.7 preResNet 312.1.8 WRN 322.1.9 随机深度网络 332.1.10 DenseNet 352.1.11 ResNeXt 362.1.12 SENet 392.1.13 MobileNet 412.1.14 MobileNet V2/V3 442.1.15 ShuffleNet 462.1.16 ShuffleNet V2 492.2 RNN、LSTM和GRU 512.2.1 RNN 512.2.2 梯度爆炸与梯度消失 522.2.3 LSTM 552.2.4 GRU 582.3 本章小结 60第3章基于2D卷积的动作识别 623.1 平均汇合 623.2 NetVLAD和NeXtVLAD 643.2.1 VLAD 653.2.2 NetVLAD 663.2.3 NeXtVLAD 713.2.4 NetFV和其他策略 753.3 利用RNN融合各帧特征 773.3.1 2D卷积 RNN的基本结构 783.3.2 对RNN结构进行改造 803.4 利用3D卷积融合各帧特征 813.4.1 什么是3D卷积 823.4.2 ECO 853.5 双流法 873.5.1 什么是光流 873.5.2 双流法的基本网络结构 893.5.3 双流法的网络结构优化 913.6 时序稀疏采样 953.6.1 TSN 953.6.2 TSN的实现 983.6.3 ActionVLAD 993.6.4 StNet 1003.6.5 TRN 1023.7 利用iDT轨迹 1043.7.1 DT和iDT 1043.7.2 TDD 1073.8 本章小结 108第4章基于3D卷积的动作识别 1104.1 3D卷积基础网络结构 1104.1.1 C3D 1104.1.2 Res3D/3D ResNet 1134.1.3 LTC 1164.2 I3D 1184.2.1 5类动作识别网络 1184.2.2 2D卷积扩展为3D卷积 1194.2.3 5类网络对比 1214.3 3D卷积的低秩近似 1234.3.1 低秩近似的基本原理 1244.3.2 FSTCN 1254.3.3 P3D 1274.3.4 R(2 1)D 1294.3.5 S3D 1324.4 TSM 1354.5 3D卷积 RNN 1374.6 ARTNet 1394.7 Non-Local 1414.7.1 Non-Local 操作 1414.7.2 Non-Local 动作识别网络 1444.8 SlowFast 1484.8.1 Slow分支和Fast分支 1494.8.2 网络结构设计 1514.9 3D卷积神经网络超参数设计 1524.9.1 多网格训练 1524.9.2 X3D 1544.10 本章小结 157第5章时序动作定位 1595.1 基于滑动窗的算法 1605.1.1 S-CNN 1615.1.2 TURN 1665.1.3 CBR 1695.2 基于候选时序区间的算法 1715.2.1 Faster R-CNN 回顾 1725.2.2 R-C3D 1755.2.3 TAL-Net 1785.3 自底向上的时序动作定位算法 1835.3.1 BSN 1835.3.2 TSA-Net 1875.3.3 BMN 1915.4 对时序结构信息建模的算法 1975.4.1 TAG 候选时序区间生成算法 1985.4.2 SSN 网络结构 1995.5 逐帧预测的算法 2025.5.1 CDC层 2035.5.2 CDC 网络结构 2065.6 单阶段算法 2085.6.1 SSAD 2085.6.2 SS-TAD 2125.6.3 GTAN 2145.7 本章小结 217第6章视频Embedding 2196.1 基于视频内容的无监督 Embedding 2206.1.1 编码-解码网络 2216.1.2 视频序列验证 2226.1.3 视频和音频信息 2246.1.4 视频和文本信息 2256.2 Word2Vec 2296.2.1 CBOW和Skip-Gram 2296.2.2 分层 Softmax 2346.2.3 负采样 2396.3 Item2Vec 2476.3.1 Item2Vec 基本形式 2476.3.2 Item2Vec的改进 2496.4 基于图的随机游走 2526.4.1 DeepWalk 2526.4.2 Node2Vec 2546.5 结合一二阶相似度 2576.5.1 LINE 2586.5.2 SDNE 2626.6 基于图的邻居结点 2656.6.1 GCN 2656.6.2 GraphSAGE 2696.6.3 GAT 2726.7 基于多种信息学习视频Embedding 2746.7.1 召回模型 2766.7.2 训练 2786.8 本章小结 280附录A 视频处理常用工具 281A.1 FFmpeg 281A.2 OpenCV 284A.3 Decord 291A.4 Lintel 294参考文献 296

第1章绪论 1
1.1 引言 1
1.2 本书内容 5
1.2.1 图像分类 7
1.2.2 动作识别 9
1.2.3 时序动作定位 12
1.2.4 视频 Embedding 14
1.3 本章小结 15
第2章经典网络结构回顾 16
2.1 经典图像分类网络 16
2.1.1 LetNet-5 16
2.1.2 AlexNet 18
2.1.3 VGGNet 22
2.1.4 GoogLeNet 24
2.1.5 Inception V2/V3 27
2.1.6 ResNet 28
2.1.7 preResNet 31
2.1.8 WRN 32
2.1.9 随机深度网络 33
2.1.10 DenseNet 35
2.1.11 ResNeXt 36
2.1.12 SENet 39
2.1.13 MobileNet 41
2.1.14 MobileNet V2/V3 44
2.1.15 ShuffleNet 46
2.1.16 ShuffleNet V2 49
2.2 RNN、LSTM和GRU 51
2.2.1 RNN 51
2.2.2 梯度爆炸与梯度消失 52
2.2.3 LSTM 55
2.2.4 GRU 58
2.3 本章小结 60
第3章基于2D卷积的动作识别 62
3.1 平均汇合 62
3.2 NetVLAD和NeXtVLAD 64
3.2.1 VLAD 65
3.2.2 NetVLAD 66
3.2.3 NeXtVLAD 71
3.2.4 NetFV和其他策略 75
3.3 利用RNN融合各帧特征 77
3.3.1 2D卷积 RNN的基本结构 78
3.3.2 对RNN结构进行改造 80
3.4 利用3D卷积融合各帧特征 81
3.4.1 什么是3D卷积 82
3.4.2 ECO 85
3.5 双流法 87
3.5.1 什么是光流 87
3.5.2 双流法的基本网络结构 89
3.5.3 双流法的网络结构优化 91
3.6 时序稀疏采样 95
3.6.1 TSN 95
3.6.2 TSN的实现 98
3.6.3 ActionVLAD 99
3.6.4 StNet 100
3.6.5 TRN 102
3.7 利用iDT轨迹 104
3.7.1 DT和iDT 104
3.7.2 TDD 107
3.8 本章小结 108
第4章基于3D卷积的动作识别 110
4.1 3D卷积基础网络结构 110
4.1.1 C3D 110
4.1.2 Res3D/3D ResNet 113
4.1.3 LTC 116
4.2 I3D 118
4.2.1 5类动作识别网络 118
4.2.2 2D卷积扩展为3D卷积 119
4.2.3 5类网络对比 121
4.3 3D卷积的低秩近似 123
4.3.1 低秩近似的基本原理 124
4.3.2 FSTCN 125
4.3.3 P3D 127
4.3.4 R(2 1)D 129
4.3.5 S3D 132
4.4 TSM 135
4.5 3D卷积 RNN 137
4.6 ARTNet 139
4.7 Non-Local 141
4.7.1 Non-Local 操作 141
4.7.2 Non-Local 动作识别网络 144
4.8 SlowFast 148
4.8.1 Slow分支和Fast分支 149
4.8.2 网络结构设计 151
4.9 3D卷积神经网络超参数设计 152
4.9.1 多网格训练 152
4.9.2 X3D 154
4.10 本章小结 157
第5章时序动作定位 159
5.1 基于滑动窗的算法 160
5.1.1 S-CNN 161
5.1.2 TURN 166
5.1.3 CBR 169
5.2 基于候选时序区间的算法 171
5.2.1 Faster R-CNN 回顾 172
5.2.2 R-C3D 175
5.2.3 TAL-Net 178
5.3 自底向上的时序动作定位算法 183
5.3.1 BSN 183
5.3.2 TSA-Net 187
5.3.3 BMN 191
5.4 对时序结构信息建模的算法 197
5.4.1 TAG 候选时序区间生成算法 198
5.4.2 SSN 网络结构 199
5.5 逐帧预测的算法 202
5.5.1 CDC层 203
5.5.2 CDC 网络结构 206
5.6 单阶段算法 208
5.6.1 SSAD 208
5.6.2 SS-TAD 212
5.6.3 GTAN 214
5.7 本章小结 217
第6章视频Embedding 219
6.1 基于视频内容的无监督 Embedding 220
6.1.1 编码-解码网络 221
6.1.2 视频序列验证 222
6.1.3 视频和音频信息 224
6.1.4 视频和文本信息 225
6.2 Word2Vec 229
6.2.1 CBOW和Skip-Gram 229
6.2.2 分层 Softmax 234
6.2.3 负采样 239
6.3 Item2Vec 247
6.3.1 Item2Vec 基本形式 247
6.3.2 Item2Vec的改进 249
6.4 基于图的随机游走 252
6.4.1 DeepWalk 252
6.4.2 Node2Vec 254
6.5 结合一二阶相似度 257
6.5.1 LINE 258
6.5.2 SDNE 262
6.6 基于图的邻居结点 265
6.6.1 GCN 265
6.6.2 GraphSAGE 269
6.6.3 GAT 272
6.7 基于多种信息学习视频Embedding 274
6.7.1 召回模型 276
6.7.2 训练 278
6.8 本章小结 280
附录A 视频处理常用工具 281
A.1 FFmpeg 281
A.2 OpenCV 284
A.3 Decord 291
A.4 Lintel 294
参考文献 296
【作者简介】
张皓，毕业于南京大学计算机系周志华教授领导的机器学习与数据挖掘研究所（LAMDA），导师为吴建鑫教授，研究方向为深度学习和计算机视觉，曾获国家奖学金、江苏省三好学生等荣誉。发表论文累计被引超过 190 次，合译《模式识别》一书，曾获 2016 年 CVPR 视频表象性格分析竞赛世界冠军。现任腾讯在线视频研究员，专注于腾讯视频等场景下的相关视频理解任务。曾任腾讯优图实验室研究员，为“微信看一看”等场景提供相关视频理解能力。知乎"张皓”关注深度学习和计算机视觉，担任多个自媒体作者或专栏作者。

已确认勘误

页码	勘误内容	提交人	修订印次

深度学习视频理解

名称
类型
大小

用户反馈

FAQ

深度学习视频理解

已确认勘误

第次印刷 筛选

第次印刷