데이터 거버넌스 는 무엇인가요?
우리는 지난 번 포스팅을 통해서 AI·빅데이터를 활용하고자 하는 기업이 준비해야할 데이터 거버넌스 에 대해서 말했습니다. 데이터 거버넌스 란 데이터 수집 과정에서 반드시 필요한 규칙을 정한 뒤 그를 기반으로 데이터 수집 등의 활동을 수행하는 것을 의미합니다.
잘 짜여진 데이터 거버넌스 를 만들기 위해서는 데이터가 어떤 수준으로 유지될 것인지 정하고, 이 수준을 컨트롤할 R&R을 지정해야 합니다. 데이터가 잘 관리되고 있는지 측정의 기준을 세워야 하며, 새로운 데이터가 발생할 시 앞서 말한 조건은 누구에 의해 정의될 것인지도 결정해야 합니다. 데이터 수집에 관한 보안이나 법률적 해석을 미리 정해놓는 것과 더불어 이러한 규칙이 정해진다면, 장기적으로 기업이 데이터 자산을 활용하는 데에 있어 큰 도움이 됩니다.
데이터 거버넌스 아주 쉽게 이야기 하자면..
서울과 뉴욕에 위치한 고등학교가 있습니다. 두 고등학교 학생들의 성적을 평균 점수로 만들어 낸다면 평균 점수가 높은 고등학교의 학생들이 공부를 더 잘하는 것일까요? 서로 다른 선생님께 다른 내용을 배운 학생들이 서로 다른 시험을 본 결과를 점수로 수치화 한 것만으로 절대적인 비교를 하는 것은 아무런 의미가 없습니다. 적어도 두 학교 학생들에게 동일한 시험 문제를 주고 점수를 측정하는 것이 공평할테니 말이죠.

도입률은 높으나, 성공 사례는 적은 투자
하지만 무형의 자산인 데이터를 관리하는 규칙이라는 점에서, 데이터 거버넌스는 여전히 추상적으로 느껴집니다. 어떻게 데이터 거버넌스를 효과적으로 운영할 수 있을까요?
최근 많은 기업들이 AI와 빅데이터에 관련해 과감한 투자를 이어가고 있습니다. 그럼에도 불구하고, 그에 걸맞는 퍼포먼스를 찾기는 쉽지 않습니다. 이 도전의 실패 이유로 많은 의견들이 거론되고 있지만, 그 중 가장 대표적인 것은 ‘데이터 관리자의 역량 부족’, ‘분석 가능한 데이터의 부족’, ‘분석 인프라의 낮은 신뢰도’, ‘관련 기술의 미성숙’ 등으로 정리할 수 있습니다.
위와 같은 이유로 AI·빅데이터에 대한 투자가 실패하지 않기 위해서는 원인에 대한 정확한 진단이 필요하다고 전문가들은 지적합니다. 특히, 데이터 관리자의 역량 부족과 분석 가능한 데이터의 부족은 데이터 거버넌스를 정립하는 것만으로도 최소화할 수 있습니다.
- 데이터 관리자의 역량 부족은 어떤 문제로 이어질까?
- IBM Watsom AI는 왜 '실패작'이라는 평을 받았을까?
과거에는 오직 수집 뿐
과거의 데이터는 수집하는 것에 더 큰 의의를 두었습니다. 무분별하게 수집에만 목표를 두니 별다른 활용성을 가지지 못한다는 단점이 있었습니다. 마치 다람쥐가 도토리를 저장하는 것처럼 모아뒀지만, 겨울 동안 도토리를 저장한 곳의 위치를 잊어버린 것처럼 말이죠. 하지만 데이터를 활용해 새로운 가치를 발견하고, 의사결정에 도움을 받고자 한다면 수집과 저장 단계에서부터 활용 측면을 고려한 구조로 개선해야 합니다.
진단과 가치 정의가 중요
또한 데이터의 현황에 대해 정확히 진단할 필요가 있습니다. 그 다음으로 데이터를 통해 얻고자 하는 가치를 명확히 정의해야 합니다. 데이터 활용의 목적을 정하는 것만으로도 데이터의 현재를 파악하고 미래를 설계할 수 있습니다. 과거에는 정보화 전략의 현황을 진단하고 개선할 점을 모니터링하는 점에서 그쳤습니다. 하지만 수집한 정보를 일회성으로 사용한 뒤 파기할 것이 아니라면, 지속적으로 데이터 자산을 운영하는 방안에 대한 고민이 필요합니다.
요약하자면 AI·빅데이터 산업의 성패를 가르는 것은 지속 가능한 데이터 사업을 설계하는 것에 달렸다고 할 수 있습니다. 위에서 설명한 두 가지의 위험요소는 데이터 거버넌스 프레임워크를 통해 가장 효율적으로 관리할 수 있습니다. 데이터 거버넌스 프레임워크는 데이터를 통해 다뤄야 할 목표와 정책, 원칙, 기준, 절차 등을 각각 정의합니다. 더욱 안정적이고 체계적으로 데이터의 운영과 생산 관리가 가능해지죠.

데이터 관리도 협업이 필요합니다
우리는 데이터 거버넌스 프레임워크를 통해 AI·빅데이터의 실패 원인 4가지 중 2가지를 해결할 수 있었습니다. 그렇다면 나머지 2가지는 어떻게 해결할 수 있을까요? 성공적인 데이터 거버넌스를 위해서는 몇 가지 규칙을 정하고, R&R을 맡은 인력에 대해 충분한 보상이 필요하다고 설명했습니다.
하지만 무형의 가치를 다뤄야하는 데이터 활동의 특성상, 눈에 보이지 않는 노고는 속된 말로 ‘내려치기’ 당할 가능성이 높습니다. 비슷한 사례로, 한 기업에서는 IT 관련해 아무런 이슈도 발생하지 않자 IT 팀을 모두 해고해버렸었습니다. 그러자 동시다발적으로 사고가 발생해 아수라장이 되었었죠. 이렇듯 장기적으로 데이터를 비즈니스에 활용하고자 한다면, 이런 데이터를 관리해줄 인력에 대한 충분한 이해가 필요합니다.
특히 데이터에 대해 유동적으로 바라볼 수 있는 시선이 필요합니다. 아무리 견고한 데이터 거버넌스를 정립했다고 하더라도, 이는 영원하지 않습니다. 기업의 목표와 주변을 둘러싼 비즈니스 환경은 시기각각 변화합니다. 우리에게 필요한 데이터의 정의도 계속해서 달라질 수 있다는 것입니다. 따라서 데이터 거버넌스 프레임워크를 포함해 데이터 관리자 역시도 이런 변화에 유동적으로 반응할 수 있는 사람이어야 합니다.
그러나 성능이 낮거나 노후화된 분석 인프라를 새롭게 세우는 것은 쉽지 않습니다. 장기적인 데이터 활용의 계획을 세웠다고 하더라도, 인프라가 매끄럽지 않아 데이터의 완결성이 낮다면 그 데이터로 학습한 AI 역시 신뢰도가 낮을 수 밖에 없습니다. 큰 금액을 들인 투자가 플랫폼으로 인해 제대로 된 퍼포먼스가 나오지 않는다면 그만큼 억울한 일도 없겠죠.
그래서 전문가들은 오히려 데이터 관리에 필요한 인력을 내부적으로 채용하거나, 신뢰할 수 있는 기업과 협업 관계를 맺을 것을 권합니다. 특히 수집 목표에 해당하는 데이터 세트를 효과적으로 활용하기 위해서는 전문적인 기술력이 필요합니다. 데이터 자산을 비즈니스에 활용하고자 하는 기업 중, 장기적인 미래를 보고 있다면 오랫동안 믿고 맡길 수 있는 전문 파트너와 함께하는 것이 중요하죠. 아무리 거창하고 구체적인 목표를 세웠다고 해도, 기술적인 부분에서 해결해야하는 솔루션이 부재하거나 인력이 허술하다면 좋은 데이터를 얻을 수 없기 때문입니다.
그래서 데이터 거버넌스 참 중요합니다
AI·ML 산업에서도 예전부터 데이터관리는 낮은 레벨의 업무로 인식되어 왔습니다. 하지만 데이터의 가치가 비즈니스의 성패를 가르는 지금, 좋은 데이터를 만들 수 있는 인력에 대한 중요성은 나날이 강조되고 있습니다. 데이터 거버넌스를 세우는 것만큼이나 데이터 가공이 중요한 이유죠.