DATA 하면 무엇이 떠오를까? 나를 포함한 대다수의 사람들은 엑셀에서 많이 보던 수치를 떠올릴 것이다. 하지만 세상에는 수치 의외에도 이미지, 음성, 영상, 텍스트 등 수많은 데이터가 존재하는데 예전에는 이런 데이터가 너무 무겁다는 인식이 강했었다. 하지만 우리는 5G시대에 살고 있다. 5G는 이론적으로 4G의 20배 속도로 약 2GB의 영화 한 편을 1초에 다운로드할 수 있는 속도이다.
그러므로 5G의 핵심은 단순히 우리가 메시지를 빨리 보내거나 렉 없이 게임을 즐기는 것이 아닌 그동안 처리하기 어려웠던 텍스트나 이미지, 심지어 영상 또한 더 쉽게 전송하고 분석할 수 있는 가벼운 데이터가 되었다는 것이다.
이렇듯 세상에는 정형데이터와 비정형데이터가 혼재되어 있고 특히 비정형데이터는 많은 부분이 미지의 영역이라고 할 수 있다. 그렇다면 오늘은 People Data의 비정형 데이터 중 텍스트데이터에 대한 이야기를 해볼까 한다.
우리 HR영역에서 생성되는 People DATA를 한번 떠올려보자 예로 조직진단이나 평가 다면진단 등 여러 영역에서 텍스트 데이터가 존재하는 것을 떠올릴 수 있을 것이다. 하지만 임직원의 수가 만명을 넘는 조직이 아니라면 보통 같은 목적으로 한 번에 쌓을 수 있는 텍스트는 몇 백에서 몇 천건이 될 것이다.
그렇다면 이정도의 텍스트로 무엇을 할 수 있을까? 가장 기본적으로 형태소 분석을 통해 여러시도를 할 수 있는데 오늘은 적은 데이터로도 가능한 몇 가지 방법을 이야기해 보겠다.
형태소 분석이란?
형태소란 언어에 있어서 “최소 의미 단위”를 말하는데 문장을 형태소로 나누어 분석하는 것을 말한다. 예로 “화분에 예쁜 꽃이 피었다.” 라는 문장이 있다면 이중 “화분”과 “꽃”이라는 명사만 추출하여 분석하는 것이다.
화분(명사)에(조사) 예쁜(어간어미) 꽃(명사)이(조사) 피(어간)었(어미)다(어미).
텍스트 수집
먼저 우리 임직원으로 인해 생성되는 텍스트는 임직원이 직접 작성하는 것도 있지만 최근에는 자막생성프로그램인 Vrew 같이 음성을 텍스트로 변환해주는 기술들이 많이 있다. 필자는 작년에 출시된 클로바 노트를 많이 사용하는데 이는 비대면이 많은 요즘 더욱 유용하게 사용될 수 있다. 이 서비스는 여러 사람의 음성을 파악하여 텍스트마다 발언자를 자동으로 라벨링 해 주는데 5명까지는 비교적 정확하게 인식하고 있다.
이를 통해 임직원 별 발언비율이나 효과적인 회의는 무엇이 다른가? 같은 분석도 가능 할 것이니 독자분들도 이용해 보길 권한다.
장바구니 분석
그렇다면 이렇게 수집한 텍스트는 어떻게 분석할 수 있을까? 기본적으로 장바구니 분석을 할 수 있다. 장바구니 분석의 가장 유명한 사례로 월마트에서 기저귀를 구매하는 고객이 맥주를 함께 구매하는 비율이 높다는 것을 찾아내 맥주와 기저귀의 매대를 가까운 곳에 옮김으로써 매출을 높였다는 이야기는 많이 들어보았을 것이다.
이런 분석을 하기위해 형태소 분석으로 추출한 명사들을 하나의 장바구니에 담아내고 이렇게 생성된 장바구니로 분석을 할 수 있는데 한 예를 들어 설명해 보겠다.
실제로 우리 조직에서는 회의문화를 진단하며 수치 외에도 “더 좋은 회의문화를 만들기 위해서는 어떤 것이 필요할까요?” 라는 질문에 1128건의 의견이 수합되었다. 그 중에는 “수평적 발언기회, 결정된 내용의 실천의지”라는 의견이 있었는데 이 내용을 형태소분석을 통해 명사들만 추출하고 장바구니에 담았다. 그렇다면 이러한 장바구니가 총 1128개 생성될 것인데 빈도순으로 3번째인 “공유”라는 명사와 어떤 명사들이 같은 장바구니에 많이 담겨있을까?
이를 살펴보면 “회의, 사전, 내용, 자료, 전, 미리” 라는 명사들이 장바구니에 함께 담겨있는 것을 볼 수 있다. 즉, 회의를 진행하기에 앞서서 자료를 미리 공유하는 것에 대한 니즈가 많은 것을 쉽게 파악할 수 있다. 이렇게 텍스트를 분석하면 수집된 데이터 속에서 우리 임직원들이 어떤 의견을 어떤 순서로 많이 이야기하고 있는지 객관적으로 파악할 수 있을 것이다.
물론 이러한 분석을 하기 위해서는 코딩을 해야 하는 경우가 많다. 하지만 코딩을 하지 않더라도 이타적인 분들이 쉽게 형태소 분석 및 빈도수 검사, 워드 클라우드, 토픽 모델링을 할 수 있도록 만들었으니 이를 적극 활용해 보기를 추천한다.
https://bd.kma.go.kr/kma2020/tavis/index.html
텍스트와 수치의 연결
이렇듯 우리는 수치를 통해 현상을 빠르게 파악하고 텍스트를 통해 현상의 숨은 이유를 파악할 수 있다. 그런데 이를 더 쉽게 할 수는 없을까? 결론적으로 말하면 수치와 텍스트를 연결을 했을 때 더 쉽게 찾아낼 수 있다. 이번에는 요즘 많은 직장인들이 주로 활용하고 있는 익명커뮤니티 블라인드에서 5500여건의 이야기가 쌓여 있는 한 기업리뷰 데이터를 분석해 보았다. 이 역시 장점과 단점을 형태소 분석을 통해 정리하고 “일과 삶의 균형, 경영진 지지, 커리어 향상” 같은 수치 데이터와 연결하였는데 이를 통해 수치를 파악하고 텍스트를 보는것과 반대로 텍스트를 통해 수치를 파악하는 시도도 할 수 있다.
즉, 워라밸을 장점으로 생각하는 집단의 경향이나 업무를 단점으로 생각하는 집단의 경향을 클릭 한 번으로 쉽게 파악할 수 있다는 것이다. 그렇다면 특정 키워드를 장점으로 생각하는 집단은 오히려 수치가 떨어지고 특정 키워드를 단점으로 생각하는 집단은 오히려 수치가 올라가는 현상도 발견할 수 있는데 이를 해석해보면 도움이 되는 단점, 방해가 되는 장점이라는 측면에서도 많은 흥미를 느낄 수 있다.
이러한 방법은 리더십 진단이나 조직진단 등에도 유용하게 쓰일 수 있으니 여러분들도 텍스트를 클릭해 가며 직접 분석해 보고 텍스트의 매력에 빠져 보기를 권한다.
https://public.tableau.com/app/profile/jskang/viz/__16314386638260/1?publish=yes
임직원들의 소리 없는 아우성
텍스트분석에 그 답이 있을지도
People Analytics 101 4편 : 문화의 원동력 다시보기
People Analytics 101 6편 : 문제 해결 이어보기
이렇게 유익한 정보를 접할 수 있도록 작성해 주셔서 감사합니다 : )
아닙니다 많이 부족한 내용인데 감사합니다^^
좋은정보 감싸합니다
많이 부족한데 저야말로 감싸합니다^^