데이터 라벨링 이란?
정의
데이터라벨링은, 이미지나 영상, 텍스트, 오디오 등 데이터를 인공지능이 학습할 수 있도록 다양한 정보를 목적에 맞게 입력하는 작업을 뜻합니다.
자동차를 운전하거나, 사진에서 사람을 식별하는 등 우리가 필요한 기능이 구현된 AI를 얻기 위해서는 그 목적에 맞는 정보를 가진 수많은 데이터셋이 필요합니다. 이를 위해 컴퓨터 비전(Computer vision), 자연어 처리(NLP) 등 다양한 기술이 발전했으며 지금도 계속 고도화되어가고 있습니다.
데이터라벨링을 수행할 수 있는 인력을 라벨러 (labeler, 레이블러)라고 부릅니다. 일반적으로 데이터 라벨링은 AI에게 필요한 데이터 형식에 맞게 이미지, 영상, 음성, 비디오 등의 다양한 데이터 위에 목적에 맞는 라벨(주석)을 다는 작업을 진행해야 합니다. 데이터 라벨링 후에는 json, csv, COCO, TFRecord 등 고객의 요청 맞춘 형식으로 결과물 데이터가 제공되고 있습니다.
Data Annotation vs. Data labeling

Data annotation과 Data labeling은 모두 데이터에 AI가 학습할 수 있는 분류, 태그처럼 데이터를 설명하는 메타 데이터 (meta data)를 입력하는 것으로 유사하게 사용되는 단어입니다. 한국 뿐 아니라 전 세계적으로 데이터 어노테이션과 데이터 라벨링이 혼용되어 사용되는 단어이지만, 구체적으로 살펴보면 조금 다른 의미를 가지고 있습니다.
- Data Annotation: 이미지 내에 특정 Object(BBox, Polygon, etc..)에 주석을 다는 일
- Data Labeling: 다수의 Annotation된 데이터를 통칭하는 개념
데이터라벨링 유형
Image Annotation
Image annotation은 눈이 없는 컴퓨터를 위해 이미지의 구성요소를 설명하는 레이블을 입력하는 작업으로, 사람이 직접 입력하거나 컴퓨터에게 도움말을 지원 받는 방법이 있습니다. Image annotation은 AI모델을 개발하는 엔지니어에 의해 미리 결정된 레이블에 따라 이미지 전체에 태그를 지정하거나 분류하고, 이미지 속에 개별 개체를 표시하거나, 인식할 수 없는 이미지 부분을 처리하는 방법이 포함되어 있습니다.
이미지 어노테이션은 Object Detection (객체 감지) , Classification (분류), Segmentation (분할) 등 Computer vistion (컴퓨터 비전) 모델 훈련에 필수적 작업입니다. 최근 자율주행 차량은 정교한 Image annotation 작업에 의존하고 있습니다. 자동차가 만나는 모든 환경의 물체, 예를 들어 차량, 사람, 신호, 차선 등에 레이블을 붙이면 차량의 컴퓨터가 그것을 인식하고, 교통 상황에 따라 행동을 결정하게 만들 수 있습니다.
의료 분야에서도 Image annotation은 매우 중요한 기술입니다. 의료 영상 분석을 통해 빠르고 정확한 질병 진단이 가능하며, 의사들의 합의를 통해 신뢰도 높은 치료방식을 도출할 수 있습니다.
Image annotation을 실제 산업에 적용할 때는 무엇보다 실시간성이 중요한 기준으로 떠오르고 있습니다. 이를 위해 YOLO(You Only Look Once) 모델이 다른 Image annotation 모델보다 많은 관심을 받고 있는 이유 역시, 이미지 분석 및 레이블링 과정을 한 번에 적용하여 속도를 높였기 때문이죠.
Image annotation 작업은 AI의 수행 목적에 따라 다음과 같이 여러가지가 존재합니다.
- Image classification
- Multi-label classification
- Object detection
- Instance segmentation
- Semantic segmentation
- Polygon
- Polyline
- Keypoint
- OCR

Text Annotation
머신러닝을 위한 Text annotation은 텍스트로 존재하는 정보를 컴퓨터가 이해할 수 있도록 변환하는 작업입니다. 좀 더 쉽게는 어디에 있는지, 무슨 의미인지, 어떤 의도인지 등을 지정하여 AI모델의 학습 데이터셋 구축에 사용하는 작업입니다. 예를 들면 다양한 자연어 처리(NLP) 및 컴퓨터 비전 등이 활용된 딥 러닝 및 머신러닝 모델의 사전 작업이 있습니다.
텍스트 어노테이션을 통한 학습 데이터 세트는 “이 영화가 좋아요!” 혹은 “이 영화는 별로예요.” 처럼, 컴퓨터가 인지할 수 없는 감정 정보를 주석으로 처리한 텍스트 스니펫이 포함됩니다. 이를 통해 머신러닝 알고리즘은 텍스트에서 긍정 및 부정 감정과 연관된 패턴을 식별하는 방법을 학습합니다. 이외에도 토픽 모델링(Topic modeling), Named Entity Recognition (NER), 품사 태깅 등 머신러닝 모델로 수행할 수 있는 다양한 방법이 있습니다.
텍스트 정보를 통해 AI모델 학습이 완료되면, AI는 스스로 텍스트에 주석을 달고 감정과 취향을 예측하는 데에 사용할 수 있습니다. 주로 감정 및 언어의 맥락, NTT 분석, 텍스트 분류, 언어 주석 등으로 활용되며, 이를 통해 사용자의 리뷰나 소셜미디어의 반응을 분류해 고객 반응을 살펴보는 데에도 활용됩니다. 또한 챗봇 및 가상 비서에서 일상적인 대화의 의도를 구체적으로 이해하기 위해 적극적으로 사용하고 있습니다.
Text annotation 유형은 다음과 같습니다.
- NER
- Q&A
- Text analysis

Audio Annotation
오늘날 자동 음성 인식(ASR) 모델은 오디오를 전사하는 프로세스를 간소화하여, 음성 언어를 이해하는 AI 세대를 가능하게 했습니다. Audio annotation은 알렉사, 구글 어시스턴트 및 음성 인식을 사용하는 AI 기술 등 이미 많은 곳에서 활약하고 있습니다.
음성 어노테이션은 STT(Speech-to-Text)와 TTS(Text-to-speech)로 나눌 수 있습니다. STT는 음성을 텍스트로 변환하며, TTS는 텍스트를 다시 음성으로 변환하는 것을 의미합니다. STT의 경우 모델이 자신의 말을 듣고 텍스트로 정확히 변환하고 이해하는 것에 초점을 두고 있으며, TTS는 모델이 이해한 내용을 사람의 목소리 처럼 자연어로 구현하는 것을 핵심으로 합니다. 유튜브의 자동 자막 생성이나 팟캐스트 및 라디오 프로그램에서 오디오 콘텐츠 생성에 적극적으로 활용하고 있죠.
ASR 시스템을 구축하기 위해서는 방대한 양의 레이블이 지정된 오디오 데이터가 필요합니다. 예를 들어, Whisper는 680,000시간 -약 77년- 분량의 오디오로 훈련 받은 모델입니다. 일부 모델은 억양 및 배경 소음이 있는 데이터를 포함하여, 다양한 조건의 샘플 데이터를 수집해야만 효과적인 성능을 보이기도 합니다.
Audio annotation 유형은 다음과 같습니다.
- Audio classification
- Tagging
- Audio to Text

Video Annotation
Video annotation은 이미지에 작업하는 것보다 더 까다롭습니다. 단일 사진이 아니라, 비디오 정보 프레임에 태그를 배치해야 하기 때문이죠. 기술의 발전에 따라 다중 프레임 또는 스트림 주석이라고 하는 연속 프레임 방법이 연구되었습니다. 비디오 어노테이션은 필연적으로 멀티 모달 작업이 됩니다. 프레임을 구성하는 이미지, 오디오를 인식해야 뿐 아니라, 그것의 맥락을 이해해야 하고 마지막으로 전 후 장면과 합쳐 흐름을 이해해야 하기 때문이죠.
컴퓨터 비전 기술은 본질적으로 기계가 비디오와 같은 시각적 데이터로부터 중요한 정보를 추출할 수 있는 능력을 기반으로 합니다. 즉, 컴퓨터 비전 기술은 인간의 시각적 인식을 원리로 작동하는 것입니다. 이를 위해서는 컴퓨터가 Video annotation 결과를 통해 학습하고 작동하는 것이 중요합니다. 신경망은 일종의 ‘블랙박스’ 형태로 세상을 볼 뿐, 그 영상에 의미를 부여하는 것은 Video annotation의 정확도에 달려있습니다.
Video annotation 유형은 다음과 같습니다.
- Object detection
- Segmentation
- Object tracking
- Classification
- Tagging
- Keypoint Skeleton pose

데이터 라벨링 작업에서 중요한 것은?

빠르게 급변하는 비즈니스 환경에서 99%의 Model-Centric AI보다는 1%의 Data-Centric AI가 유의미한 성과를 만들고 있습니다. 그럼에도 불구하고, 저품질 데이터로 인해 전체 AI의 15%만이 실제 산업에 적용되고 있습니다.
데이터 분석 기업인 Cognilytica에 따르면, AI 프로젝트 시간의 80%가 데이터를 수집, 구성 및 레이블링에 사용된다고 합니다. 모델을 학습하고 배포하기 전에, 적절하게 구조화된 데이터를 확보하는 데에 많은 시간을 쏟고 있는 셈이죠. 기존의 데이터 레이블링 프로세스는 대부분 비효율적이거나 비용이 많이 드는 구조적 문제점이 있었습니다. 이 때문에 기업은 인공지능을 도입하기에 앞서, 데이터 품질에 큰 리소스를 투입하기 어려워 했죠.
비즈니스에 AI를 도입하기 위해서는 무엇보다도 학습 데이터의 품질을 중요하게 생각해야 합니다. 머신러닝 모델 구축에 앞서, 학습 데이터 구축을 위한 데이터 라벨링 작업의 중요성은 날이 갈수록 중요해지고 있습니다. 레이블링된 데이터의 품질 문제는 모델 교육 및 모델 의사결정에 악영향을 미칠 수 있기 때문입니다. 따라서 품질 보증을 추가하거나, QA 프로세스를 통해 적극적인 개선이 필요합니다.
데이터라벨링 트렌드 - 한국정부의 데이터 품질 관련 정책
2023년 과학기술정보통신부가 주최하고 한국지능정보사회진흥원이 주관하는 ‘인공지능 학습용 데이터 구축 사업’에서 데이터 품질 확보를 위한 ‘인공지능 학습용 데이터 품질관리 가이드라인 및 구축 안내서’가 발간되었습니다. 다년간의 인공지능 학습용 데이터 구축사업을 통해 축적된 품질관리 활동 및 산출물을 프로세스화한 문서입니다. 이 가이드라인 76 페이지에서 구체적으로 언급한 Data Labeling 주요 품질 관리 기준은 다음과 같습니다.
[품질관리 지표 - 데이터 정확성]
- 구문 정확성: Annotation Data를 구성하는 속성 값들과 원래 정의한 데이터 형식 및 입력값 범위와의 일치성을 측정하는 지표
- 의미 정확성: 의미 데이터의 참값(Ground Truth)를 확인하기 위해 정확도, 정밀도, 재현율, IoU, ROUGE, BLEU, Fβ-점수, EM 등을 측정하는 지표
데이터 라벨링의 현실 - 데이터라벨러의 전문성과 품질관리 필요
최근 동남아나 아프리카에 거주하는 저렴한 인건비의 데이터 라벨러를 고용하는 글로벌 업체 또는 중소 업체를 활용하면 비용을 절감할 수 있습니다. 그러나 이 경우 한국 사람과 다른 맥락으로 이해할 수 밖에 없기 때문에 필연적으로 메타 데이터의 정확성이 부족하여 학습 데이터셋의 품질이 떨어지는 경우가 자주 발생합니다. 최악의 경우, 프로젝트 시간의 80%를 할당해야 하는 데이터 전처리/가공 과정을 다시 반복해야 할 수도 있죠.
한 번 모델을 구축하면 폐기 후 새로 구축하거나 확장하는 것이 쉽지 않은 만큼, 학습 데이터셋을 초기에 제대로 구축하는 것은 중요한 일입니다. 이에 따라 데이터 라벨러의 전문성이 더욱 중요해지고 있는 시점입니다. 이미 AI 산업을 리드하는 핵심 기업들은 데이터 라벨러 고용 및 관리 영역에서 아르바이트의 개념을 도입하는 것이 아니라, 전문 인력을 활용하는 데에 중점을 두고 있습니다.
최근 데이터헌트를 찾은 고객사들 중 이런 케이스가 특히 많았습니다. 데이터헌트는 인건비가 다소 높더라도, 숙련되고 작업 능력이 검증된 국내 라벨러를 활용하여 프로젝트를 진행하는 것이 더 좋은 선택이라 확신합니다.
최근 생성 AI를 다방면으로 활용하기 시작함에 따라, 모델의 파인튜닝을 위해 데이터 수집과 가공이 필요한 사례가 늘고 있습니다. 이 경우 Few-shot learning을 기반으로 한 학습 과정이 진행되기 때문에 데이터 라벨링 결과물의 품질이 더욱 중요해지고 있습니다. 생성 AI를 사업에 접목하려는 기업은 이에 대한 높은 이해도를 갖춘 파트너와 함께 원천 데이터 수집/가공과 함께 학습 데이터를 구축해야 합니다.
국내 데이터 라벨링 업체 비교
한국에 등록되어 있는 데이터라벨링 업체는 2023년 기준 700개가 넘는다고 합니다. 업체가 다양해 선택이 어려운 만큼 파트너를 선정하는 기업의 입장에서 주요 업체의 특징을 간략하게 소개해 보겠습니다.
크라우드웍스

- 전문 라벨러 육성을 위한 국민내일배움 교육 커리큘럼 제공, 인력 파견 서비스 제공
- 단기간에 더 많은 데이터를 작업하기 위한 Smart Labeling Platform
AIMMO

- 웹 브라우저 작업 환경을 구축하여 안정적인 퍼포먼스 도출
- 품질 및 성과 관리 툴로 프로젝트 효율성 향상
데이터헌트

- 최대 정확도 99%, 작업 시간 및 운영 비용은 50%대로 절감한 Human in the loop 구조
- SaaS 플랫폼을 통한 오토 라벨링과 실시간 품질 관리 및 로그데이터 추출
- 해외 데이터라벨링 기업과 비교해도 높은 수준의 데이터 품질 역량 확보
테스트웍스

- 효율성과 생산성 증가에 특화된 품질 관리 시스템과 사후 관리를 통한 고객 만족 서비스
- 데이터 생성, 정제, 가공 및 관리까지 선순환 사이클 운영
셀렉트스타

- 25만 작업자가 이용하는 크라우드소싱 플랫폼으로 소규모 작업 진행도 가능
- 학습 데이터의 분포 및 특성을 볼 수 있는 시각화 기반 데이터셋 분석 도구
데이터헌트의 데이터 라벨링 경쟁력
오토 라벨링
데이터헌트는 SaaS 플랫폼을 적극적으로 활용하여 AI-Assisted auto labeling 구조를 구축했습니다. 이를 통해 데이터 정확도는 99%로 향상되었습니다. 더불어 비용과 시간 측면에서도 50% 이상 절감 효과를 가져올 수 있었습니다.

데이터헌트는 프로젝트에 앞서 고객사 AI 모델의 학습 데이터에 가장 적합한 어노테이션 모델을 선정합니다. 담당 PM과 전문 AI 엔지니어가 맞춤형 프로젝트 플래닝을 하는 과정이 필수적으로 진행되죠. 여기에는 Meta의 Segment-anything, YOLO, BERT 등 다양한 모델을 프로젝트에 맞게 선택하고 개선하는 작업이 포함됩니다. 데이터헌트의 AI 개발자 및 PM들은 다양한 모델을 직접 테스트하고 연구하며 고객사의 비즈니스에 맞는 결과물을 도출하기 위해 적극적으로 노력하고 있습니다.
또한 AI를 활용한 결과물의 퀄리티를 높이기 위해 자체 알고리즘을 구축하고, 꾸준한 성능 개선 작업을 진행하고 있습니다. 데이터헌트의 라벨링 노하우를 통해 엄선된 모델은 Pre-labeling, Auto-labeling, validation 작업에 투입되어 프로젝트를 수행하고 있습니다. 그간 작업한 300M+ 데이터를 사전 학습한 모델은 고객사의 작업 시간을 50% 이상 단축할 수 있었습니다.
HITL(Human-in-the-loop) 검수로 정확도 관리
데이터헌트는 데이터 가공 과정에서 꼼꼼한 작업은 물론, 2차/3차 검수 과정을 거쳐 정확도 향상을 도모합니다. 이 과정은 사람과 인공지능이 함께 보완하는 HITL (Human-In-The-Loop) 방식으로 진행하고 있습니다.

데이터헌트의 AI 자동 검수는 1차적으로 작업한 데이터를 대상으로 작업 결과물 중 틀렸을 가능성이 높은 작업물을 찾아내어 수정을 제안하는 것입니다. AI가 작업의 신뢰도를 평가하면, 사람이 AI의 제안을 수락 또는 거절하면서 검수를 진행하는 과정을 거칩니다. 데이터헌트의 플랫폼은 고객의 요청에 따라 여태 작업한 데이터를 통해 모델을 학습시키고 있습니다.
언제나 발생할 수 있는 사람의 실수를 찾아내는 과정에서 AI가 큰 역할을 하는 셈입니다. 이를 통해 검수 시간을 절약할 수 있을 뿐만 아니라, 비용도 줄일 수 있습니다. 무엇보다도 최종적으로 획득할 수 있는 데이터의 품질을 크게 향상시킬 수 있다는 점이 데이터헌트의 가장 큰 강점입니다.
데이터 라벨러 관리
데이터헌트는 효율적이고 정확한 프로젝트를 위한 SaaS 플랫폼을 구축했습니다. Admin 기능을 통해 다양한 프로젝트 매니징이 가능합니다. 먼저 Time management를 위한 평균 처리시간, 작업 효율, 반려율 등 전반적인 프로젝트 진행 상황을 한 눈에 볼 수 있습니다. 또한 Quality management를 위해 AI 연동을 통한 작업 정확도 예측치, 작업자 우수/불량 작업 예측치를 제공합니다.
또한 라벨러의 작업 로그 데이터를 통해 업무 숙련도를 평가하고 프로젝트에 배치할 수 있으며, 고객사에게는 SaaS 플랫폼을 통해 실시간으로 품질 관련 정보를 제공하고 있습니다.
요약: 데이터 라벨링은 학습 데이터셋 품질에 결정적인 역할을 하며, 이를 위해서는 라벨러 인력 및 기업의 핵심 역량이 점점 더 중요해지고 있다.
- 데이터 라벨링은 컴퓨터가 원천 데이터를 식별할 수 있게 하며, AI 모델이 학습할 수 있는 컨텍스트를 제공하는 기술입니다. 데이터 어노테이션과 비슷한 의미로 사용되며 머신러닝 모델의 학습을 위한 데이터셋 구축을 위해 데이터 포인트에 정보을 할당하는 작업을 의미합니다.
- AI 프로젝트 시간의 80%가 데이터 수집 및 구성 및 레이블링에 사용되는 만큼, 레이블링된 데이터의 품질이 중요해지고 있으며 정부의 데이터 품질 관련 정책 역시 보다 구체적인 기준을 강조하고 있습니다.
- 오늘날 기업은 데이터 라벨링을 위해 크라우드소싱 및 일반 인력을 활용하는 방법을 채택하고 있습니다. 다만 라벨러는 알바의 개념보다 전문 인력으로써 능력이 강조되어야 하며, 이를 위해서는 프로젝트 이해도를 수반하는 지식과 비즈니스 요구에 유연하게 대응할 수 있는 능력이 필요합니다.