Insight

아마존이 텍스트마이닝으로 고객 리뷰 분석하는 방법

아마존 텍스트마이닝 원리와 구조

2023
.
05
.
16
아마존이 텍스트마이닝으로 고객 리뷰 분석하는 방법

많은 양의 문서를 관리할 때, 중요한 정보를 빠르게 찾는 능력은 필수적입니다. 기업은 텍스트 분석을 사용하여 다양한 비정형 데이터 원본에서 실행 가능한 인사이트를 도출하고 있습니다. 또한 의사결정 과정에서 고객 설문 조사나 소셜미디어 댓글 등의 피드백을 분석하기도 합니다.

이 글에서는 아마존의 텍스트마이닝 전략과 로직을 설명합니다. 또한 기업이 텍스트마이닝 전략을 수행하기 위해 필요한 핵심에 대해 소개합니다.

아마존의 텍스트마이닝 전략 사용 방법

아마존은 텍스트마이닝을 사용하는 대표적인 기업 중 하나입니다. 아마존은 데이터 수집 및 준비, 감정 분석, 주제 모델링, 피쳐 추출 및 의견 마이닝의 용도로 텍스트마이닝 방식을 사용하고 있습니다.

텍스트마이닝 솔루션은 조직이 정보를 빠르고 정확하게 찾을 수 있도록 지원하여, 더 유용한 인사이트를 얻고 더 빠르게 시장에 제품을 낼 수 있도록 하죠. 또한 수천 개의 소스와 텍스트 문서를 통해 정보를 연결하고 올바른 정보를 활용할 수 있습니다. 이런 발전은 텍스트마이닝 기술을 통해 위험을 완화하는 능력 향상으로 이어졌습니다.

기존의 쿠키 기반 접근 방식과 비교하여 문맥 광고는 웹페이지의 텍스트를 분석하는 방식으로 콘텐츠를 더욱 깊게 이해할 수 있습니다. 디지털 광고 전략에서 텍스트마이닝 방식을 사용하면, 대상이 지정된 광고를 제공한다는 측면에서 유의미한 성과를 거둘 수 있습니다. 또한 텍스트마이닝은 대량의 정보를 보다 효과적으로 관리할 수 있으므로, 콘텐츠를 풍부하게 하고 메타데이터 관리 프로세스도 개선할 수 있습니다.

텍스트마이닝 전략으로 아마존 고객 리뷰 분석하기
텍스트마이닝 솔루션은 조직이 정보를 빠르고 정확하게 찾을 수 있도록 지원합니다. 또한 수천 개의 소스와 텍스트 문서를 통해 정보를 연결합니다.

이것 외에도 기업 내부적으로 텍스트마이닝 방식을 활용할 수 있는 방법은 무궁무진합니다. 그 중에서도 최근 소매업자들에게 가장 주목 받고 있는 것은 ‘고객 서비스 향상’ 측면과 더불어 ‘소셜 미디어 데이터 분석’이라고 할 수 있습니다. 텍스트마이닝 및 자연어 처리는 고객 관리 팀에 엄청난 도움이 될 수 있습니다. 고객에게 신속하고 자동화된 응답을 제공하는 챗봇의 핵심이 텍스트마이닝이기 때문이죠.

기업 전체에서 소셜미디어는 시장 및 고객 인텔리전스의 귀중한 소스로 간주되기도 합니다. 텍스트마이닝 전략을 통해 기업은 많은 양의 사회적 논평을 맥락화하하여 브랜드/제품 및 소비자와의 긍정적, 부정적 의견을 드러내는 감정 및 정서를 추출할 수도 있죠.

제품/서비스 피드백 분석을 위한 텍스트마이닝

텍스트마이닝은 비즈니스 인사이트를 위해 컴퓨터 시스템을 사용해 사람이 쓴 텍스트를 읽고 파악하는 과정입니다. 텍스트마이닝 소프트웨어는 텍스트에서 정보를 분류, 정렬, 추출하여 여러 데이터를 식별할 수 있습니다. 예를 들면 아래와 같습니다.

  • 패턴
  • 관련성
  • 감정
  • 기타 실행 가능한 지식

텍스트마이닝을 사용하면 이메일, 문서, 소셜미디어 콘텐츠, 제품 리뷰와 같은 여러 텍스트 기반 소스를 정확하게 처리할 수 있습니다. 기업은 텍스트마이닝 도구를 사용하여 다양한 비정형 데이터 원본에서 실행 가능한 인사이트를 추출합니다. 하지만 이런 소스에서 나오는 엄청난 양의 텍스트는 소프트웨어가 없다면 버거울 것입니다. 반면, 소프트웨어를 사용한다면 프로세스는 완전히 자동화될 것입니다. 효율은 향상되고, 사람이 하는 것 이상으로 정확도도 올라가죠.

텍스트마이닝으로 고객리뷰 분석 및 인사이트 획득
아마존의 텍스트마이닝 솔루션 과정

아마존 텍스트마이닝 원리와 구조

먼저 아마존은 데이터베이스에 저장된 각 상품에 대한 고객 리뷰를 대량으로 수집합니다. 이 원시 텍스트 데이터를 전처리하여 HTML 태그, 구두점 및 불용어와 같은 불필요한 데이터와 노이즈를 제거하는 과정을 거칩니다. 토큰화나 형태소 분석과 같은 표제어 추출과 같은 기술을 사용하기도 합니다.

전처리된 텍스트 데이터를 각 리뷰의 감정을 결정할 수 있도록 분석 과정 머신러닝 또는 규칙 기반 알고리즘과 같은 기술을 사용합니다. 감정 분석 알고리즘은 수집한 리뷰의 긍정과 부정, 혹은 중립성을 결정할 수 있게 되죠.

각 리뷰의 감정이 결정되면 텍스트 데이터를 분석하여 주제를 식별합니다. 여기서 LDA(Latent Dirichlet Allocation) 또는 NMF(Non-negative Matrix Factorization)와 같은 주제 모델링 알고리즘이 사용됩니다.

  • LDA는 주어진 데이터 안에서 숨겨진 주제를 추출하는 기술입니다. 주제의 혼합으로 표현된 문서 내에서 단어 묶음으로 구성된 주제를 찾아낼 수 있습니다. 주제가 어떻게 보일지 미리 알 필요 없이, 다양한 데이터 세트 모양에 맞게 LDA 매개변수를 조정하는 것만으로도 주제를 형성하고 결과 문서 클러스터를 탐색할 수 있습니다.
  • NMF는 데이터 벡터 집합에서 유의미하거나 희소성 있는 특징을 자동으로 추출하는 고차원 데이터 분석 도구입니다. 일련의 문서가 제공되면 NMF는 주제를 식별하는 동시에, 서로 다른 주제를 두고 문서를 분류할 수 있습니다.

주제 모델링 알고리즘은 텍스트 데이터에서 각 주제와 관련되어 있으면서도 자주 노출되는 단어나 구와 같은 특징을 추출하는 데에 사용합니다. 이를 통해 아마존은 고객이 각 상품에 가지고 있는 주요 문제나 우려 사항을 식별할 수 있습니다.

추출된 특징은 각 리뷰를 제품의 품질, 고객 서비스 또는 배송 시간과 같은 하나 이상의 범주로 분류하는 데에 사용합니다. 즉, 취합한 여러 가지 의견 중 품질에 대한 불만이나 배송에 대한 아쉬움 등을 분류하여 라벨링 하는 것이죠. 일반적으로 SVM(Support Vector Machines) 또는 Naive Bayes와 같은 감독학습용 알고리즘을 사용하는 것으로 알려져있습니다.

텍스트 마이닝 분석 결과는 그래프나 차트, 워드 클라우드를 사용해 시각화할 수 있습니다. 이렇게 만들어진 데이터는 가장 중요한 문제나 우려사항을 신속하게 식별하고, 시간 경과에 따른 고객 감정 변화를 추적하는 힌트가 되어주죠.

텍스트마이닝 전략의 핵심, 특징 추출 과정 살펴보기

텍스트 리뷰를 통해 제품의 어떤 기능에 고객만족도가 떨어지는지 알 수 있습니다. 하지만 일부 제품에는 수천 개의 리뷰가 있을 수 있고, 사람이 모든 리뷰를 살펴보기는 어렵습니다. 이때 제품의 특정 기능에 불만족한 리뷰어의 수에 대한 통계 보고서를 제공하는 시스템이 필요합니다. 이를 통해 사용자는 아마존 제품 범주에 대한 리뷰를 볼 수 있으며, 특정 제품의 경우 각 주요 기능에 대한 고객 반응을 살펴볼 수도 있습니다.

텍스트 전처리 및 벡터화

원시 텍스트 데이터를 사전 처리하면, 일반적으로 머신러닝 알고리즘에서 사용할 수 있는 숫자 형식으로 변환하는 과정을 거칩니다. 보통 BoW(Bag-of-Words) 또는 TF-IDF(Term Frequency-Inverse Document Frequency)와 같은 벡터화 기술을 사용하여 수행합니다.

BoW는 각 문서에 대한 벡터를 생성합니다. 여기서 각 차원은 말뭉치의 고유한 단어에 해당하고 값은 문서에서 단어의 빈도를 나타냅니다. TF-IDF는 BoW와 유사하지만 모든 문서에서 빈도를 기반으로 말뭉치에서 단어의 중요성도 고려합니다.

경우에 따라 벡터화된 텍스트 데이터는 희귀하거나 정보가 없는 단어에 해당하는 차원이 많은 고차원일 수 있습니다. 데이터의 차원을 줄이기 위해 PCA(Principal Component Analysis) 또는 SVD(Singular Value Decomposition)와 같은 기술을 적용할 수 있습니다. 이러한 기술은 데이터의 분산을 설명하는 가장 중요한 차원을 식별하는 것을 목표로 합니다.

How Amazon uses text mining strategies to analyze customer reviews
텍스트마이닝은 고객 리뷰의 전체적인 흐름을 파악하고, 그 사이에서 인사이트를 획득하는 기술입니다

기능 선택 및 인코딩/스케일링

차원 축소 후 기능 선택 기술을 적용하여 특정 작업에 가장 유용한 기능을 식별할 수 있습니다. 여기에는 특정 대상 변수 또는 결과와 가장 밀접하게 관련된 차원의 하위 집합을 선택하는 것이 포함됩니다.

관련 기능이 식별되면 일반적으로 기계 학습 알고리즘에서 사용할 수 있는 형식을 사용하여 인코딩합니다. 이 과정에서, 원-핫 인코딩 또는 레이블 인코딩과 같은 기술을 사용하여 범주형 변수를 수치 변수로 변환하는 작업을 진행하기도 합니다.

마지막으로 기능이 동일한 스케일에 있고 유사한 범위를 갖도록 기능을 스케일링할 수 있습니다. 이를 통해 머신러닝 알고리즘의 성능을 향상하고 특정 기능이 다른 기능보다 우세해지는 것을 방지할 수 있습니다. 일반적인 기능 스케일링 기술에는 표준화 또는 최소-최대 스케일링이 포함됩니다.

Text Analysis with Amazon OpenSearch Service and Amazon Comprehend

"Text Analysis with Amazon OpenSearch Service and Amazon Comprehend"는 구조화되지 않은 데이터에서 의미 있는 인사이트를 추출하는 엔드 투 엔드 솔루션입니다. 주로 고객 통화, 지원 티켓, 온라인 고객 피드백과 같은 텍스트 데이터를 다루고 있죠. 이 솔루션은 자연어 처리(NLP) 서비스인 Amazon Comprehend을 이용해 텍스트 분석을 수행하고, Amazon OpenSearch Service를 이용해 구조화되지 않은 텍스트를 인덱싱하고 분석합니다. 이를 통해 효율적이고 경제적인 텍스트 분석을 제공합니다.

텍스트마이닝 기술을 통한 기업의 전자 입소문(eWOM) 생성 및 사용
기업은 인공지능과 알고리즘을 사용하여 온라인 리뷰를 분석하고 소비자 선호도와 브랜드 이미지에 대한 통찰력을 얻을 수 있습니다.

아마존 텍스트 마이닝 전략의 미래성

온라인 리뷰를 탐색함으로써 기업은 소비자 선호도나 브랜드 이미지, 브랜드 포지셔닝과 같은 측면에 대한 지식 확장의 기회를 얻을 수 있습니다. 지금까지는 온라인 리뷰의 질적 특성으로 인해 종합적인 수준에서 분석하고, 의미 있는 인사이트를 얻기가 어려웠습니다. 하지만 인공지능과 알고리즘의 발전으로 전자 입소문(eWOM)을 생성하고 사용할 수 있게 되었죠.

온라인 리뷰 탐색을 위해 다양한 기법의 텍스트마이닝을 사용할 수 있습니다. 위에서 설명한 머신러닝 알고리즘은 과거 중소규모의 기업이 사용하기에는 전문적인 계산 기술을 필요로 한다는 점이 아쉬웠었죠. 기업이 인공지능을 도입하지 않는 주요 이유 중 하나는 ‘숙련된 인력 부족’ 및 ‘역할 수행에 어려움을 느낌’이었을 정도였기 때문입니다.

반면 어휘 기반 방법은 온라인 리뷰의 텍스트를 보다 간단하고 직관적으로 분석할 수 있는 수단을 제공하므로 중소기업 규모에 더 적합하다고도 합니다. 하지만 문맥에 숨겨진 감정까지 파악하기는 어렵다는 점을 지적받아왔습니다.

텍스트마이닝 전략이 빛을 발하기 위해서는 인공지능이 학습한 결과를 토대로 소비자의 숨겨진 마음까지도 읽을 수 있어야 합니다. 머신러닝 알고리즘이 더 제대로 학습하기 위해서는 정확한 학습 데이터가 필요하죠. 데이터헌트는 숙련된 국내 라벨러들을 고용하여 최대 99% 정확도의 데이터셋을 구축해왔습니다.

결론: 아마존의 텍스트마이닝 방식은 알고리즘을 통해 감정을 분석하고 라벨링하여 시각화하는 프로세스

ⓐ 아마존은 텍스트 데이터를 분석하여 주제를 식별한다. 여기에는 LDA나 LMF와 같은 주제 모델링 알고리즘이 사용된다.

ⓑ 알고리즘으로 추출된 특성은 텍스트 전처리 과정이 핵심이며, 구조화되지 않은 데이터에서 의미 있는 인사이트를 추출하기 위한 솔루션을 사용하고 있다.

ⓒ 아마존과 유사한 온라인 커머스에서는 텍스트 마이닝 전략을 통해 소비자의 감정을 읽고 eWOM을 비즈니스에 적극적으로 활용할 수 있다.

앞으로 소비자의 니즈를 잡아야 하는 비즈니스에서 텍스트마이닝 전략은 미래성이 확실한 분야입니다. 텍스트마이닝을 위해서는 구현 데이터를 수집하고 전처리하는 과정이 중요하며, 이를 학습하고 결과를 추출하는 과정에서 주제 속의 ‘특징’을 찾는 것이 핵심입니다. 방대한 양의 데이터를 분석하는 과정을 더 잘 수행하기 위해서 데이터의 가공이 중요해진 것입니다.

데이터헌트는 약 500명의 숙련된 라벨러와 함께 정확도 높은 데이터셋을 가공하고 있습니다. 중소규모 기업부터 대기업까지 믿고 맡길 수 있도록 결과로 증명해왔죠. 전문 데이터 가공 파트너와 함께라면, 전 세계 소비자의 마음을 사로잡은 아마존 따라잡기도 불가능한 일은 아닐 것입니다.

Table of Contents
Talk to Expert