Insight

데이터가공 과정에서 주의 사항 - 데이팅앱

데이터가공 과정과 리스크

2023
.
04
.
28
데이터가공 과정에서 주의 사항 - 데이팅앱

수많은 원천 데이터 속에서 사용자가 진정으로 바라는 니즈를 찾는 것이 데이터가공 과정의 핵심입니다. 최근 들어 비즈니스에서 이 역량의 중요성이 강조되기 시작하면서, 대부분의 마케팅에서 데이터가공 프로세스를 통해 사용자의 마음을 사로잡을 서비스를 제작하고 있습니다. 예를 들어 쇼핑이나 영화 추천 큐레이션이 있을 것이고, 또 하나의 대표적인 예시는 데이팅 앱이죠.

행복한 연인 사이에서 부러움만 곱씹고 계신가요? 결혼에 대한 부정적인 시선은 날이 갈수록 심화되고 있지만, 연애에 대한 의지는 시대불문 동일한 듯합니다. 결혼정보업체 뿐만 아니라 데이팅 앱도 성수기를 맞이하는 봄이 다가오고 있습니다. AI 역시 많은 이들의 큐피트를 자처하여 고군분투하고 있죠. 그러나 당신이 만난 어플 속 그녀와 그 남자가 빅데이터를 기반으로 AI가 매칭해준 선남선녀일 수도 있겠지만, 어쩌면 실제로 존재하지 않는 인물일 수도 있습니다.

이상형을 찾아주는 데이터가공

소개팅 주선에 대한 어려움은 경험이 있는 분들이라면 모두 공감할 것입니다. 별다른 이상형이 없다고 말하는 상대방도 실제로 따져보면 까다로운 취향이 많은 경우가 있죠. “오늘 점심으로 짜장면을 먹을까, 김치찌개를 먹을까?” “김치찌개 어때?” “아냐. 사실 난 짜장면을 먹고 싶었어.” 무엇이 진짜 이상형인지 밝히지 못하거나 알지 못하는 사람들에게 데이팅 앱은 실패할 확률이 높았습니다. 하지만 AI는 데이터가공 프로세스를 통해 사용자의 숨은 취향까지 찾아낼 수 있었죠.

2019년 출범한 ‘모두의지인’은 AI 기반의 매칭 서비스를 개발하여 제공하는 플랫폼입니다. AI와 알고리즘, 빅데이터 분석 등의 기술을 기반으로 개인의 성향과 취향을 분석하죠. 여기다 매칭 어드바이저와 심리상담가가 성혼을 도와 소비자 신뢰도와 매칭률을 더욱 높이는 방식으로 서비스하고 있습니다. Bi-LSTM 기반의 선호도 예측 모델을 이용해 결혼 정보 매칭 방법을 운영하고 있으며, 음성과 메시지에 대한 텍스트 분석을 통해 획득한 대화 키워드를 통해 천생연분을 찾는 서비스도 특허 출원을 마쳤습니다.

글램의 ‘오늘의 추천’ 기능 역시 머신러닝을 기반으로 상대방을 추천해 줍니다. 사용자들의 프로필 매력도를 측정해 수치화하고, 성별이나 연령, 국가, 문화권별 일반적 선호와 상대방과의 실제 연결 가능성을 고려하여 개인에 특화된 맞춤형 추천을 제공합니다. 글램의 운영사 큐피스트는 소셜데이팅 업계에 고객 신뢰도 구축을 위하여 기술적인 부분에 어려움을 겪고 있는 기업이 있다면, 자사가 쌓아온 노하우를 최대한 공유하겠다는 의지를 보여주기도 했습니다.

소개팅앱에서 찾은 데이터가공 과정과 리스크_01

데이터가공 방식

초기 데이팅 앱 속 데이터가공 기술들은 사용자들이 프로필을 등록하고, 필터링을 이용해 자신이 원하는 상대방의 조건을 스크리닝해 매칭하는 방식을 사용해왔습니다. 현재는 머신러닝을 통해 직업, 나이 등의 객관적 프로필  조건을 포함해 SNS 계정 내의 활동 데이터나 매칭 이력, 이성과 대화 시의 호감도까지 분석하여 매칭하고 있죠. 사용자의 무의식적인 성향까지 비슷한 사람과 매칭시켜 성공률을 높이는 것입니다. 심지어 DNA 샘플을 분석하여 사용자와 가장 화학적으로 결합이 맞는 이성을 소개하기도 합니다.

좋은 사람을 만나는 것뿐만 아니라 나를 좋은 사람으로 보이도록 코칭해주기도 합니다. 소개팅 어플에 올릴 완벽한 사진을 고르기 위해 몇 주를 고민하는 사람은 있지만, 소개말을 어떻게 쓸 지 깊게 생각하는 사람은 적습니다. 실제로 Tinder는 About Me 섹션에 두 번의 철자 오류를 범한 사람에게 14% 가량 응답이 적게 표시되었다고 언급하기도 했습니다. 상대방의 호감도를 사는 포인트 중 올바른 문법이 갖는 비중도 꽤나 크다고 볼 수 있는 셈이죠. 그래서 프로필과 메시지의 오타와 문법 오류를 수정하는 AI 기반 도구를 사용하기도 합니다.

데이터가공 프로세스의 그림자

그녀는 ‘진짜’일까?

온라인 광고모델 등에 사용할 인물 이미지를 대량으로 생산할 수 있는 시대가 되었습니다. 아르헨티나 디자인 업체인 ‘아이콘스8’의 서비스 이용 고객들은 성별, 연령, 인종, 눈이나 머리 색깔, 헤어스타일, 표정 등의 조건을 입력하면 실제로 존재하지 않는 인물의 사진을 받아볼 수 있습니다. 실제 인물 70명의 사진을 바탕으로 AI를 활용해 하루에 100만 개의 가상 인물 사진을 생성할 수 있는데, 이 중 가장 퀄리티가 높은 10만 개의 사진을 선택해 배포하고 있죠.

가상 인물 이미지 생성은 AI 연구자들 사이에서도 최근 주목을 받고 있는 추세입니다. 하지만 이렇게 생성된 가짜 사진이 데이팅 앱에서 악용되고 있다면 어떨까요? 매칭 받은 이성의 사진을 보고 대화를 나누고 있는데, 실제로 세상에 존재하지 않는 사람이라면 감정적인 배신감은 물론이고, 여러 방향으로 악용될 수 있을 것입니다.

이에 소셜데이팅 업계는 악성·허위 유저를 잡는 데에 노력을 기울이고 있습니다. 글램은 머신러닝 기반의 데이터가공 기술을 적용하여 사용자가 등록한 프로필 사진이나 직업, 국가, OS 등의 정보를 분석해 정보의 진실성을 탐색합니다. 사진 도용이나 중복 계정 여부, 불순한 활동 등을 실시간으로 판단해 악성 유저를 찾아내고 차단하는 기능을 선보였죠. 기존에는 관리자가 직접 검사하는 방식이었기에 시간도 다소 걸리고, 정확도도 떨어졌습니다. 하지만 AI를 도입한 후 도용이나 스팸, 금전 행위 등 데이팅 사기 유저 프로필을 5초 안에 99.5%의 정확도로 검수할 수 있게 되었다고 밝혔죠.

한편, 소셜데이팅 앱의 사용자 72%가 다른 사람의 잘못된 행동이나 공격적인 콘텐츠, 혹은 프로필에 의해 차단한 경험이 있다고 밝혔습니다. 이에 많은 기업들이 AI를 통해 사용자의 불편을 사전에 차단하고자 합니다. Tinder는 부적절한 언어를 감지하면 사용자에게 이에 대한 느낌을 묻고, 데이터를 전송하는 보고 시스템을 운영하고 있습니다. 그 외에도 IP 주소나 메시지, 도용한 이미지를 기반으로 99%의 정확도로 봇 계정을 찾아내는 알고리즘도 성행하고 있습니다.

소개팅앱에서 찾은 데이터가공 과정과 리스크
Serve my heart on valentine’s day

어딘가 위험한 주선자

AI는 훈련 데이터를 기반으로 규칙을 학습하고, 이후 제공 받는 데이터 사이에서 유사성을 추론하면서 문제를 해결합니다. 하지만 만약 누적된 데이터에 편향성이 있을 경우, 데이터가공 과정을 수행하는 AI 역시 확증편향을 가질 수밖에 없게 됩니다. 예를 들어 흑인보다 백인에 대한 선호도가 높다는 데이터가 누적된다면, 흑인은 매칭에서 후순위로 밀려날 수밖에 없게 되겠죠. 내 취향에 맞는 사람을 만날 수 있다는 점에서 AI의 매칭 서비스는 시대적 요구라고 해도 과언이 아니지만, 편견을 심화할 수 있다는 전문가들의 지적을 피할 수는 없었습니다.

나아가 최근에는 매칭 만족도를 높이기 위해 사용자의 SNS 계정 활동 데이터를 수집하기도 합니다. 무심코 눌렀던 ‘좋아요’나 내 SNS에 올라간 사진, 방문 장소, 대화 기록 등을 토대로 서로의 인연을 찾아주는 것이죠. 성공률을 높이기 위한 시도로는 긍정적이었으나, 확률을 높이기 위해 무분별하고 광범위하게 개인 데이터를 끌고 오는 경향이 있어 속된 말로 ‘신상 털기’의 위험성에 노출되어 있습니다. 개인정보의 유출은 나아가 디지털 범죄에 활용될 가능성도 있죠. 빅데이터 분야에서 최근 가장 떠오르는 ‘합성 데이터’를 활용한 딥페이크 기술은 특정인의 얼굴이나 신체 등의 이미지는 물론 목소리와 억양까지 모방할 수 있습니다.

AI를 활용한 매칭 시스템의 위험성은 이외에도 많은 문제점을 시사하고 있습니다. 하지만 사용 목적에 따라 AI는 중립적인 모델보다 특정 방향에 치우쳐있을 때 최적의 수행이 가능하다는 연구 결과도 있죠. 결과적으로 AI를 활용한 매칭 시스템에서 중요한 것은 편향성보다는 데이터의 질에 대한 고민이 필요합니다. 학습한 데이터의 질이 지나치게 광범위한 개인정보를 포함하지 않으면서도, 필수 데이터간의 연관성을 유의미하게 뽑아낼 수 있다면 훨씬 더 높은 정확도의 결과를 받아볼 수 있습니다. 이에 따라 보유한 데이터에 대한 높은 수준의 분석력이 필요해지고 있죠.

기업의 입장에서는 개인정보 유출의 리스크를 포함하더라도 사용자에게 높은 만족도를 줄 수 있는 AI를 활용할 수밖에 없습니다. 그렇다면 AI 사업을 수행하는 과정에서 데이터에 대한 고도의 분석력과 질 좋은 데이터를 만들 수 있는 협업이 중요할 것입니다.

Table of Contents
Talk to Expert