Overview: Computer vision 자율주행 데이터 구축의 핵심, Polyline
자율주행 솔루션에는 Lidar를 사용하는 것이 일반적이었습니다. 하지만 카메라 기반 인식 솔루션인 테슬라 비전의 등장으로 업계에 새로운 바람이 불고 있죠. Computer vision 자율주행 솔루션의 핵심은 Data Annotation 작업에 있습니다. 카메라가 수집한 데이터에는 기계가 보고 있는 것을 이해할 수 있도록 주석을 달아주는 것이죠. 여기에는 다른 자동차, 보행자, 교통 표지판, 차선 표시와 같은 객체를 식별하고 데이터 세트에 Polyline 레이블을 지정하는 작업도 포함됩니다.
Computer vision 자율주행 솔루션을 개발하는 것은 운전자의 안전성과 편의성을 증진하기 위해 필수적인 관문입니다. 또한 카메라에 기반한 자율주행 솔루션은 기존의 방식에 비해 비용이 저렴하다는 점에서 주목 받고 있습니다. 그 외에도 테슬라는 Computer vision이 Lidar 기술 방식보다 혁신적인 이유를 여러 번 설명한 적이 있었죠.
우리 고객사는 다양한 차종에 카메라용 소프트웨어를 공급하는 기업입니다. 그 외에도 SoC 플랫폼에 솔루션을 도입하는 등 다양한 기술적인 도전을 이어가고 있습니다. 카메라 기반 자율주행 시대의 서막이 오르면서, 자율주행 차량용 솔루션 개발을 준비하고 있었죠.
Problem: Polyline 레이블링 방식으로 자율주행 데이터 구축하기
Computer vision 자율주행 솔루션을 개발하기 위해서는 대량의 인공지능 데이터셋 구축이 필요합니다. 특히 차선 및 도로, 야간 환경에서의 데이터 등 각종 Edge Case에 대한 데이터 구축이 필요한 상황이었죠. 더 나아가 국내 도로 데이터 외에도 일본이나 미국 등 해외 도로 데이터셋을 구축하는 작업이 필요했습니다.
구축 데이터를 활용한 소프트웨어를 통해 고객이 사용하는 플랫폼 내에서 높은 정확도로 자율주행을 할 수 있는 것이 프로젝트의 최종 목표였습니다. 주행 경로 상의 교통 방향이나 기타 장애물에 대해 자율적인 인지가 가능해진다면, 완전 자율주행 대중화도 멀지 않았다고 생각했죠.
데이터헌트와 고객사가 협의한 데이터 레이블링과 가공 방식은 아래와 같습니다.
고객사가 요청한 데이터 레이블링
- 국내/해외(일본, 미국, 유럽)에서 수집한 데이터야간 등 특수 환경에서 수집된 데이터
- 멀티캠을 통해 수집된 데이터
- Pre-labeling된 데이터의 추가 가공
데이터 가공 방식
- 차선: 이미지 데이터 내 도로의 차선 Polyline 레이블링
- 도로 가장자리: 도로의 경계 레이블링
- 기타 표식: 도로 내에서 차선으로 혼동될 수 있는 부분들을 표기하는 작업
진행 당시, 고객사로부터 600장 가량의 방대한 가이드를 전달 받았습니다. 고객사에서 개발 중인 AI모델의 성능을 위해서는 정확하고, 대량의 Polyline 레이블링 데이터를 구축해야 하는 사업인만큼, 작업하는 라벨러들에게 전달할 내용은 명확하고 간결해야 할 필요가 있었죠. 또한 가공에 대한 정책 변경이 잦아 해당 내용을 작업자들에게 빠르게 전파해야만 했습니다.
Computer vision 데이터 구축 중에서도 난이도 높은 프로젝트인 만큼 작업자 투입과 숙련에 유의하는 것이 중요한 미션이었습니다.
Solution: Data Annotation을 통한 polyline 데이터 구축
분량이 많은 데이터 가공 프로젝트일수록, 높은 정확도로 데이터를 가공하는 것이 중요합니다.
차선 작업
- Line Detection을 위해 도로 내 차선을 레이블링하고 차선의 생김새 및 종류를 분류, 차선의 너비에 맞춰 작업
- Polyline 작업 방식으로 Data Annotation
- 소실점 정하기 > 작업 범위 확인 > 차선 그리기 > 너비 조정 > 차선 분류 > 겹치는 부분 작업
- 분류: 도로 모양(5종), 차선 라인 수(3종), 위치(4종), 특이 케이스(2종), 색상(4종) 등을 각각 선택하여 분류
도로 가장자리
- 차량이 주행할 수 있는 도로의 경계를 레이블링하고, 경계의 종류를 분류
- Polyline 작업 방식으로 Data Annotation
- 소실점 정하기 > 작업 범위 확인 > 도로 경계 표시 > 분류 > 가려진 부분 작업
- 분류: 위치(4종), 종류(비콘, 벽면 등 19종)
기타 표식
- 차선으로 혼동될 수 있는 요소를 제거하는 작업으로, 도로 내 화살표나 글자, 도형 등을 제거하는 작업
- Polygon 작업 방식으로 Data Annotation
- 작업 범위 확인 > 기타 표식을 Polygon 선택 작업 > 차선과 겹치는 부분 수정 작업
작업 순서 및 검수 기준
(작업자) 1차 작업 > (검수자) 검수 진행 및 작업자에게 피드백 및 재작업 요청 등을 반복 > (PL) 검수를 마친 작업물에 대해 세부 작업 내용 조정 > (PM) 납품 전 최종 검토
차선 작업의 경우, 차선의 생김새부터 종류 등이 매우 다양합니다. 도로 가장자리는 차선 작업보다 경계의 종류가 복잡했습니다. 특히, 해외 도로의 경우 작업난이도가 높아 세심한 Polyline Labeling 작업이 필요했습니다.
데이터헌트는 일반적으로 원활한 커뮤니케이션과 작업 관리를 위해 국내 라벨러와 협업합니다. 해외 데이터에 대해서 생소한 케이스가 있을 수 있기 때문에, 특별히 집중할 필요가 있었죠. 사전에 작업 투입 시 교육을 진행하는 것은 물론, 샘플 테스트 등을 진행했습니다. 특히, 난이도가 어려웠던 차선/경계 등의 Polyline 레이블링 등 Data Annotation 업무에 대한 집중 교육을 실시했습니다.
Result: 30만 장의 Polyline, 오류율은 5% 이내

최종적으로 고객사에서 요청한 내용을 포함해, 데이터헌트가 프로젝트 내에 완수한 Data Annotation 성과는 아래와 같습니다.
고객이 요청한 데이터 레이블링
- 국내/해외(일본, 미국, 유럽)에서 수집된 데이터
- 야간 등 특수 환경에서 수집된 데이터
- 멀티캠을 통해 수집된 데이터
- 유럽/미국/일본/국내 자율주행 데이터를 모두 포함한 약 30만 장의 자율주행 데이터 구축
- 납품 전 데이터는 4단계 이상의 작업/검수 과정을 거쳐 고객사 품질검수 자체 기준 (오류율 5% 이내)를 모두 통과
데이터 가공 방식
- 차선: (데이터(이미지) 내 도로의 차선 polyline 레이블링
- 도로 가장자리: 도로의 경계 Polyline 레이블링
- 기타 표식: 도로 내에서 차선으로 혼동될 수 있는 부분들을 Polygon 레이블링
인공지능과 사람이 함께 하는 일
해당 프로젝트는 방대한 정책과 가이드, 다양한 정책 변동 사항에 대해 실시간 대응이 필요한 프로젝트였습니다. 동시에, 대규모 작업자가 투입되어야 하기 때문에 라벨러와 퀄리티 관리 측면에서 까다로운 점이 많았습니다. 효율적인 업무를 위해 프로세스와 가이드를 정립하는 과정을 먼저 거쳤습니다.
특히 이번 기회를 빌어 데이터헌트 내부적으로 AI Prelabeling 및 자동 교육 테스트 등을 도입해 작업자 교육 과정을 정례화했습니다. 앞으로도 명확한 기준을 통과한 작업자들을 확보할 수 있을 것입니다.
어려운 업무에도 빠르게 따라와 주신 작업자 분들과 데이터헌트 내부 멤버들에게 이 자리를 빌어 감사의 인사를 전하고 싶습니다.
이번 프로젝트를 통해 데이터헌트는 고난이도의 자율주행 프로젝트에 대한 교육 및 프로젝트 이행을 마친 작업자 600명 확보하였습니다. 앞으로 유사 프로젝트 시 신속하게 투입하여 보다 빠르고 정확한 Polyline 및 Polygon 데이터 구축이 가능할 것이라고 확신합니다.