[Data Centric] 3. Annotation Tool


Annotation 도구

  • 양질의 데이터를 확보하려면 어떤 요소가 필요할까?
    • Annotation 도구는 모델을 학습시키기 위한 데이터를 준비하는데 사용되는 tool 이다.
    • 데이터가 왜 중요하고 왜 tool 까지 써가며 잘 준비해야 하는지를 살펴보자

      Untitled

    • 아직까지 현업에서는 Supervised Learning 이 제일 많이 쓰인다.
    • 따라서 labeling 은 필수적이며 이를 효율적으로 수행하게 해줄 Tool 의 필요성도 크다.
  • Supervised Learning 에서의 모델 학습과정

    Untitled

    • 골고루 모여있고 일정하게 라벨링된 좋은 데이터를 모으려면?
    • 라벨링 가이드가 잘 되었다고 가정한다면, People, Process, Tool 이 필요하다!

      Untitled

    • 효율성 측면에서 어노테이션 툴은 데이터 정제부터 어노테이션 품질 확인까지의 기능을 포함하는 것이 바람직하다.

CV task 에서 많이 사용되는 tool 소개

  • LabelMe, CVAT, Hasty Labeling Tool 등이 있다.
  • OCR 관련 Text annotation 을 한다고 가정하면, 위 tool 들을 아래와 같이 비교할 수 있다.

    Untitled

  • LabelMe
    • 직사각형, 다각형, 원, 점선 등 다양한 방법으로 영역 지정이 가능하다.
    • 파이썬으로 작성되어 있어 기능 추가/수정 등 커스터마이징이 자유롭다는 장점이 있다.
  • CVAT
    • 이미 학습된 모델을 불러와서 해당 모델로 라벨을 미리 생성하는 Automatic annotation 기능을 제공한다.
    • 온라인 기반 라벨링 툴로, 공동 작업 또한 가능하다.
  • Hasty 라벨링 툴은 free credit을 소진한 후에는 과금을 해야 한다.
  • Upstage Annotation Tool
    • Upstage 는 OCR 관련 기술이 매우 뛰어나고, 성능이 좋다. 이를 뒷받침하는 Upstage 만의 Annotation Tool 을 가지고 있다.
    • 공개된 서비스와 비교해보자.

    Untitled

  • 어노테이션 프로세스
    • key-value task 를 수행하는 Parser 를 위한 어노테이션도 필요하다.

      Untitled

맨 위로 이동 ↑

댓글 남기기