MooreData视频分割标注全面升级：基于SAM2的智能追踪标注工具

你是否还在用这种方式进行视频分割的标注？

Step1：钢笔绘制目标区域
- 几个目标画下来，描边大师非你莫属
Step2：切换至下一帧，移动+修改延续下来的目标区域
- 后续帧想贴合？你就修吧，一修一个不吱声
Step3：删了重画
- 修改是不是还不如删了重标来得快？
Step4：去前一帧Check下ID，把后面重画的标签修改ID
- 重标别忘了保持ID一致哦

以上操作耗时 5 min，想象一下在这段数据中，将这种操作重复100遍，是怎样的工作量。

标注过程的痛点主要集中在以下几个方面：

手动描边费时费力；
后续帧基本无法沿用上一帧的标注结果，手动微调还不如重新标注；
重新标注需要保证ID一致，稍有疏忽就会导致目标追踪失败。

如果你也是用这种方式进行视频分割的标注，那不妨来试试MooreData智能数据工程平台集成SAM2的图像标注工具。

什么是SAM2

简单来说，SAM就像一本百科全书，只要给它一个提示，就能帮你锁定想要的内容。而SAM2不仅能告诉你想要的内容是什么，还能帮你找到相同的内容。
SAM模型在图像分割领域有着里程碑式的贡献，它借用了NLP中对next token的预测作为与训练任务，通过模糊的Prompt（例如点、框或掩码）实现对任意物体的识别和分割，尽管目标对象并没有事先训练过。

SAM2（Segment Anything Model 2）是Meta公司最新发布的开源视觉分割模型，主要用于解决图像和视频中有关提示视觉分割（PVS）的问题。该模型采用了简单的Transformer架构，在设计上很大程度遵循了原有的SAM架构。值得注意的是，由于侧重于视频分割，SAM2引入了流式记忆模块（streaming memory），可储存先前帧中的交互并传播至视频的后续帧，进行实时的视频处理。

除此之外，SAM2在模型性能方面也作出诸多提升：

分割和追踪性能：SAM2在图像分割上展现出更好的精度和更强的泛化性；
视频交互式分割：展现了比现有工作更好的交互能力，减少了2/3的交互时间；
标注效率：在SA-V数据集上的实验显示，SAM2比使用SAM手动每帧标注快8.4倍。

MooreData怎么使用SAM2做视频标注？

真实世界的物体检测、场景分割是训练模型的基础，重复性的人力劳动能够保证标注的准确性，却需要大量的成本。在真实世界分割场景，如制造业缺陷检测、无人机遥感图像、医学疾病分割中，由于图像质量、参数、边缘、颜色、纹理的变化，仍然需要丰富的专业知识和审查才能完成数据生产的闭环。MooreData智能数据工程平台在不断深化实践的过程中，搭载面向视觉标注的SAM2模型，保障您的数据高效优雅地产出，预计可节约高达50%人力成本。

鼠标单击，自动分割

想象一下您标注一台电脑显示屏和一个榴莲所花费的时间，前者仅需要几个点，后者则需要勾勒它的形状。

图像语义分割一直是数据标注中最繁琐、最耗时的标注任务之一，利用钢笔工具手动描边的标注方式所带来的时间成本和低准确率将直接影响数据生产速度。MooreData智能数据工程平台内嵌的SAM2模型可通过简单的鼠标单击定义感兴趣的区域，并在后续帧中以提示的方式对该区域进行迭代和改进。例如，在2D自动驾驶实例分割中，对于非匀速运动车辆的标注往往需要先确定车辆ID，在后续帧中人工判断车辆标签ID，而应用SAM2模型可以快速追踪到车辆在后续所有帧的位置，并保持标签ID一致。

图：点选智能标注

交互式微调，轻松追踪

复杂数据的标注中，对标签的调整可能会占据总标注时长的50%～80%

传统的视频帧标注是将视频转换为以秒为单位的平均帧，并通过调整标签位置完成对视频序列的标注，这一策略在复杂场景中效果不佳，如在打斗场面中，由于前序帧与后续帧形态差异过大，手动调整的方式极大的占据标注人员的精力。

在SAM2模型的基础之上，MooreData智能数据工程平台很好的调整了分割对象的粒度信息，以满足更丰富的标注需求。针对具体业务场景，为用户提供了帧间提示的交互式微调，并配备笔刷、钢笔、套索等辅助工具助力视频连续帧的快速修改。无论您想要修订整个视频序列还是视频序列中的最小单位——单帧标签，都能轻松对目标对象进行自定义编辑、修改、删除等功能的支持，这也将极大的降低人工返修时的时间消耗。

除此之外，在官方发布的论文中有提到SAM2对于高速运动的物体、长时间遮挡的视频中表现不佳的隐忧。此类情况发生时，容易失去对视频序列帧中目标对象的追踪，而重新检测将会花费成倍的时间。尽管Meta采用在中间帧进行提示的方式避免这一缺陷，但在实际生产中仍然存在技术难点。因此，平台针对特殊场景和模型缺陷进行了定制化的设计，解决在实际应用中可能会影响标注效率的状况。

Step1：点选生成标签“预览提示”；
Step2：切帧，查看后续帧的追踪是否正确；
Step3：交互式调整后续帧的追踪结果，并将此调整后的Prompt顺延至后续帧，但不会影响前序已检查过的帧；
Step4：确认当前目标在所有帧的追踪结果正确，空格完成该目标的追踪分割标注。

图：SAM2交互式微调

算法调优，更少算力

低成本，放心用

算法层面上，将原有SAM2的模型进行了压缩和量化，并优化模型的计算图，显著降低了计算量和内存占用，减少了标注量产项目的算力消耗；同时通过缓存机制、动态调整、异步处理等策略，提高模型的响应速度，助力数据生产提效。

图：毫秒级响应速度