People Analytics 분야에서도 최근 텍스트를 분석하는 방법 및 사례에 대한 관심이 높습니다. 조직 및 HR에는 축적된 텍스트가 상당히 많이 있는데요. 한 연구에 따르면 세상에 존재하는 데이터의 80% 이상이 비정형 데이터로 추산되기도 합니다(Chakraborty & Pagolu, 2014). HR에서는 조직진단, 리더십진단을 통한 분석 시도가 자주 있어왔으며 최근 김성준 외(2021) 연구 등에서는 잡플래닛 데이터 등을 통해서 꼰대를 중심으로 한 조직문화 분석을 한 바 있습니다. 이처럼 텍스트를 통한 분석은 정량적인 분석으로는 보기 어려운 조직 모습 그대로를 비출 수 있다는 점에서 장점이 있습니다.
텍스트마이닝(Text mining)은 자연어로 구성된 비정형 텍스트 데이터에서 패턴 또는 관계를 추출하여 가치와 의미 있는 정보를 찾아내는 마이닝 기법으로, 사람들이 말하는 언어를 이해할 수 있는 자연어처리(Natural Language Processing) 기술에 기반 한 기술입니다. 대표적으로 자연어처리 기술에는 형태소(단어)분석, 문자열 분석, 핵심 어구 추출, 동시출현 단어, 토픽 모델링, 감성 분석, 의미연결망 분석, 그리고 머신러닝 등이 있습니다. 우선 형태소 분석은 의미를 가진 최소 단위인 형태소나 단어를 분석하는 가장 일반적 방법으로 문법적 규칙, 확률에 의한 품사 태깅 등을 활용합니다. 문자열 분석은 영어의 음운이나 한국어의 글자 갯수(n-gram)을 지정하여 전체 텍스트 코퍼스를 분석함으로써 해당 문자열이 나왔을때 그 다음에 어떤 단어가 나올지를 확률분포로 예측하는 방법입니다. 핵심 어구 추출은 텍스트를 어휘적으로 상호 관련 있는 단어들로 나누는 청킹(chunking)을 통해 핵심 어구를 추출하거나 관계를 추출하는 등 방법에 활용됩니다. 동시출현 단어는 분석 단어들 사이의 의미상 관계성을 파악하기 위해 일정한 문맥 내에서 두 단어가 동시 출현하는 빈도를 구하고 다양한 통계적 방법을 활용하여 유의미한 단어 쌍을 추출해내는 방법을 의미합니다. 토픽 모델링(topic modeling)은 구조화되지 않은 대량의 텍스트로부터 숨겨진 주제 구조를 발견하고 카테고리화 하기 위한 통계적 추론 알고리즘(예.Latent Dirchlet Allocation, LDA)를 활용해서 단어들의 확률 분포를 통해 주요 주제를 뽑아내는 방법입니다. 감성분석은 사전을 기반으로 전체 텍스트의 감성 비율을 정량화하며 의미연결망 분석은 키워드 동시출현 분석을 기반으로 맥락상 연결 관계를 정의하는 등의 방법입니다. 마지막으로 머신러닝을 통해서 SVM(Support Vector Machine), 의사결정트리 등을 통해서 활용할 수 있습니다.
이처럼 다양한 텍스트 마이닝 기법을 통해서 다양한 비정형 데이터를 분석할 수 있습니다. 연구자들은 핵심인재 특성을 파악하기 위해 텍스트 마이닝 기법 중 하나인 동시출현 단어(co-occurrence) 기법을 활용했는데 활용한 데이터는 인사 의사결정에 주로 쓰이는 평가센터(Assessment Center) 결과 보고서를 활용했습니다. 즉, 핵심인재와 일반인재가 동일한 과제 수행을 하고 이에 대한 평가 결과를 평가자(Assessor)가 평가한 코멘트, 강점 등에 어떠한 차이가 있는지를 살펴보고자 했습니다. 우선 핵심인재의 샘플은 33명, 일반인재는 105명이었으며 이들의 평가 결과 보고서를 기본 데이터로 활용했습니다. R 프로그램과 패키지를 이용하여 우선 핵심인재와 일반 인재의 주요 강점을 살펴봤는데, 핵심인재가 일반인재에 비해서 차별적인 특징으로 사람 관리(leading people) 역량이 두드러지는 것으로 나타났습니다. 즉, 대인관계, 커뮤니케이션, 목적지향, 관계관리, 인게이지먼트 등 역량에서 일반인재와는 다른 패턴과 빈도수의 강점을 보이고 있었습니다.
다음으로 동시출현 단어 분석을 통해 어떤 맥락에서 강점들이 발현되는지를 살펴봤는데 핵심인재는 시스템적 사고를 중심으로 문제해결, 전략기획, 커뮤니케이션, 대인관계, 변화수용, 의사결정 등 역량이 골고루 관계를 맺고 있었지만 일반인재는 전략적 사고(leading strategy) 측면만 서로 간에 관계를 보이고 있는 특징을 갖고 있었습니다. 즉, 핵심인재는 평가센터라는 가상 문제 상황에서 주어진 과제를 풀어감에 있어서 전략과 사람이란 테마를 적절하게 관계 맺으며 문제를 해결해가지만 일반인재는 전략적 테마에 집중한다는 점이었습니다. 이는 핵심인재들의 강점으로 사람관리 역량이 도드라지게 들어난 결과와 맥을 같이한다고 할 수 있습니다.
핵심인재가 갖고 있는 차별점은 지난 화에 이야기한대로 변화하는 환경에 맞게끔 끊임없이 진화하고 배우는 “학습민첩성”도 중요하며 이번 분석으로 본 바와 같이 문제 상황에 전략과 사람 관련 테마를 골고루 활용해서 조직과 사람을 이끌어가는 모습을 보이고 있음을 알 수 있습니다. 조직내 산재되어 있는 다양한 텍스트 속에서 어떻게 문제를 정의하고 분석할지는 우리 HR 동역자 모두에게 필요한 역량인 것 같습니다. 이번 사례가 여러 동역자분들에게 생각의 단초가 되길 바라며 본고를 마칩니다.