Meta에서 Auto Labeling 관련 연구를 수행하는 것 같다. 서비스는 아래 링크를 통해서 확인 할 수 있고 관련 코드는 아래 깃허브를 통해 확인할 수 있다. 또한 논문은 "https://arxiv.org/pdf/2304.02643.pdf"를 통해 볼 수 있다.

Segment Anything
Meta AI Computer Vision Research
GitHub - facebookresearch/segment-anything: The repository provides code for running inference with the SegmentAnything Model (SAM), links for downloading the trained model checkpoints, and example notebooks that show how to use the model.
The repository provides code for running inference with the SegmentAnything Model (SAM), links for downloading the trained model checkpoints, and example notebooks that show how to use the model. -...

모델에 대한 개요

논문에서 Auto label 모델인 Segment Anything Model에 대한 개요는 아래와 같이 설명되어 있다. 그림(a) 처럼 이미지와 함께 점이나 바운더리, 마스크, 혹은 text를 입력하면 mask를 생성해주는 Task이다.

논문에 example image만 봐도 퀄리티가 대단해보였는데, 데이터가 1억개이상의 마스크를 사용했다는 것에 놀랐다.

데이터를 입력으로 넣었을 때의 상세 플로우는 아래와 같음을 확인할 수 있었는데, 이미지를 넣으면 embedding이되고 points나 box 혹은 text를 반영해서 3개의 의output을 제공해주는 형식이다. embedding에는 Vision Transformer(ViT)를 사용하였으며, prompt encoder에는 text와 image를 입력으로 받는  OpenAI에서 개발한 CLIP기법을 활용하였다고 한다.

마지막은 내가 가진 데이터로 추론해본 결과이다.