Success Case

음성전사/STT로 심리 분석 데이터 분석

멀티모달 감정분석 데이터 구축

동국대학교 AI소프트웨어융합학부

2023
.
05
.
16
음성전사/STT로 심리 분석 데이터 분석

Overview │ 감정 분석을 위한 음성전사 기술의 가능성

음성전사 기술은 음성 언어의 자동 분석을 통해 감정을 해석할 수 있는 잠재적 능력을 가지고 있습니다. 텍스트 데이터에서 의견의 긍정/부정을 자동으로 감지할 수 있게 됩니다.

예를 들어, 콜센터 관리자는 고객 서비스 통화를 전사함으로써 상호 작용의 감정을 분석하고 개선이 필요한 영역을 식별할 수 있게 되는 것입니다. 많은 통화에 부정적인 감정이 있는 경우, 콜센터 관리자는 근본 원인을 조사하고 고객 만족도를 개선하기 위한 조치를 취할 수 있습니다.

동국대학교 AI소프트웨어융합학부는 미래 사회를 주도하는 AI융합역량을 갖춘 융복합 인재 양성에 앞장서고 있습니다. 최근 학부 내 산학협력단 및 연구원들은 심리상담 챗봇 시스템 구축 사업에 착수했습니다. 영상 및 텍스트 데이터에 포함된 발화자의 감정을 분석하여 대답해주는 심리상담 챗봇 시스템을 구축하는 것이 주요 목표였습니다.

Problem │ 종합적인 감정 분석 모델 개발을 위한 음성전사 데이터 활용

고객사는 심리 상담 멀티모달 감정 분석 모델 개발에 필요한 학습 데이터를 구축해야 했습니다. 멀티모달 감정 분석 모델을 통해, 사용자가 전달하는 텍스트를 분석하고 대답해주는 심리 상담 챗봇 시스템을 구축할 계획이었습니다.

심리상담에서 음성전사 및 멀티모달은 감정을 감지하고 상담 세션의 효과를 평가하기 위해, 상담자의 목소리 톤과 피치를 분석하는 데에 사용할 수 있습니다. 예를 들어 이 모델이 내담자의 어조와 음조 변화를 분석하여 감정 상태의 변화를 추적한 데이터를 토대로 상담 기술의 효과를 평가할 수 있게 되는 것이죠.

이외에도 음성전사 멀티모달은 취업 면접이나 대중 연설과 같은 다른 맥락에서 감정과 행동을 분석하는 데에 사용할 수도 있을 것입니다. 머신러닝 모델은 목소리와 얼굴 표정을 분석하여 행복, 슬픔, 분노, 불안과 같은 감정을 감지하고 개인의 감정 상태에 대한 분석을 제공합니다.

Solution │ 음성전사/멀티모달 기술로 심리상담 데이터셋 구축

멀티모달 특성상 여러 인터페이스를 통해 정보를 파악해야, 해당 문장에 대해 보다 정확한 감정 분석을 할 수 있습니다. 이에 이번 프로젝트에서는 데이터 가공 전, 텍스트 데이터와 연관된 시청 자료를 제공 받기로 협의했습니다. 문장의 텍스트 뿐만 아니라, 영상 데이터를 함께 비교하면서 대화의 앞뒤 문맥과 발화자의 감정을 파악할 수 있는 데이터셋 구축이 가능하게 되었습니다.

데이터헌트는 이렇게 일했습니다

데이터헌트가 작업한 Semantic segmentation 분류는 다음과 같습니다.

음성전사를 통한 semantic segmentation

  • speech to text
  • text_intent
  • ~발화자의 의도를 표시 / 총 26개의 클래스로 구성
  • 대주제
  • ~대화의 주제를 입력 /  총 15개의 클래스로 구성
  • 소주제
  • ~사전 정의된 클래스 없이 작업자의 주관적인 판단에 따라 입력한다. 단, 시나리오 내용에 어긋나지 않고 최대한 범주와 연관성 있게 작성한다.
  • CML 감정
  • ~CML 연구소에서 만든 6가지 감정으로 구성되어있다. 레이블링 시 비슷한 단어가 아닌, 정의된 6가지 값으로만 레이블링 한다.
  • 감정1
  • ~CML 감정보다 더 구체화 된 감정으로 총 21개 Pair와 1개의 “중립” 단일 속성으로 구성 되어있다. 단, 중립의 사용은 가능한 지양한다.
  • 감정세기
  • ~감정 1에 대한 세기를 태깅한다. 중립의 경우 “2”로 입력한다.

음성 전사 멀티모달 기술로 더 정확한 감정분석 학습데이터 구축
음성전사 멀티모달 기술로 더 정확한 감정분석 학습데이터 구축 실제 사례

작업자들은 먼저 텍스트 대화문에 해당하는 영상을 시청합니다. 그리고 대화문의 영상과 스크립트를 비교합니다. 각 항목별 클래스를 확인하여 대사에 가장 적합한 9개 항목에 대한 레이블링을 진행합니다.

주제/소주제는 작업자의 주관에 따라 입력하는 영역입니다. 단, 대화의 시나리오와 대범주에 어긋나지 않는 선에서 입력할 수 있습니다. 하나의 대사에 복합적인 감정이 반영되어 있어, 단일 감정으로 분류하기 어려운 경우도 있을 것입니다. 이럴 때에는 ‘감정 2’ 컬럼에 태깅하는 방식으로 복합적인 상황에도 유연하게 대응할 수 있도록 구체화했습니다.

Result │ 99.995% 정확도를 기록한 멀티모달 음성전사 데이터

이 프로젝트에서 데이터헌트는 약 79,346개 문장에 대한 멀티모달 음성전사 작업을 마쳤습니다. 이 중 370개에 대해서만 피드백 후 수정 작업이 이루어졌으며, 정확도는 99.995%를 기록했습니다.

텍스트 가공 프로젝트는 기계적으로 단순 반복 작업을 이행하는 것으로 이해하기 쉽습니다. 하지만 이번 프로젝트는 대화 세트에서 주제/소주제를 추론해야 하는 미션이 있었습니다. 또한 감정에 대해 5개의 태깅 항목을 입력해야 합니다. 이에 대화문의 텍스트만 보고 판단하는 것이 아니라, 관련 영상 자료를 함께 시청하면서 보다 정확한 태깅값을 입력할 수 있도록 하였습니다.

text script와 대화 영상을 통해 대화의 성격을 8가지로 분석/분류합니다.

음성전사 작업 중에서도 난이도가 어렵고 복잡한 프로젝트였지만 이례적인 정확도 99%를 달성했다는 점에서 고객사에서도 큰 환영을 받았습니다. 일반적인 텍스트 감정 분석 프로젝트는 2-3개 정도의 감정값만을 태깅하여 학습 데이터로 사용합니다. 하지만 데이터헌트는 학습 데이터의 품질을 향상시키기 위해 8개의 속성값을 태깅함으로써, 훨씬 더 정교한 데이터를 구축해냈습니다.

마음이 건강한 대한민국을 위해

대학(원)생 심리·정서 지원 실태 조사 보고서에 의하면, 대학 상담센터 상담사 1명이 맡는 재학생 규모가 최대 1,505명에 달한다고 합니다. 가장 부담이 적은 대학도 상담사 1인당 212명의 재학생을 상담해야 하죠. 지속적인 상담이 중요함에도 불구하고, 열악한 여건 탓에 극단적인 위험군에 속하는 게 아니고서는 10~15회 이상의 상담을 받기도 어렵다고 합니다.

우리 고객사는 멀티모달 감정 분석 모델을 개발하여 심리 상담에 대한 인력 리소스를 줄이고자 했습니다. 앞으로도 인공지능 기술이 사회 현안 문제를 해결하고, 또 개선을 돕기를 바랍니다.

Table of Contents
Talk to Expert