통계…뭐 부터 알아야할까?🤔
저번 시간에는 HR(D) 영역에서 통계적 접근이 필요한 이유, 그리고 통계분석 처리를 위한 도구로서 엑셀과 ChatGPT가 있다는 점을 살펴보았습니다.
이번 시간에는 HR(D) 영역에서 필요한 통계적 개념과 분석기법, 그리고 기법을 활용할 수 있는 아주 간편한 방법들을 살펴보고자 합니다.
(1) 기술 통계 📈
HR에서 어떤 주제에 대해 가장 쉽게 통계적 개념을 접목해볼 수 있을까요?
아마도 구성원의 나이로 대표되는 인구통계와 관련된 주제라고 생각되는데요. 우리는 우리 조직의 HR시스템에 접속해서 자료를 다운 받거나 조회하여 구성원의 나이를 쉽게 확인해볼 수 있습니다. 그런데 서로 다른 구성원들의 나이를 고려했을 때, 우리 조직이라는 하나의 ‘집단’을 대표할 수 있는 ‘나이의 값’ 하나를 꼽으라면 무엇일까요?
맞습니다. 바로 구성원들 나이의 ‘평균’ 있습니다. 또 ‘중앙값’은 어떨까요? 우리 구성원들을 가장 어린 사람부터 가장 나이가 많은 사람까지 일렬로 세웠을 때 딱 ‘중간에 있는 사람의 나이’ 역시도 우리 집단을 대표하는 하나의 ‘대표 나이 값’이 될 수 있겠지요. 이와 같이 평균과 중앙값 처럼 어느 한 집단이나 데이터 묶음의 속성을 표현하는 하나의 수가 바로 ‘대푯값(representative value)’입니다. 대푯값에 평균과 중앙값이 들어가는 것이지요.
그런데 이런 ‘대푯값’만으로는 우리 조직의 구성원들의 나이대를 정확히 알 수 없습니다. 대충 ‘아, 우리 조직의 평균 나이는 35살이구나.’하고 어렴풋한 느낌만 받을 수 있죠.
그럼 구성원들의 나이대를 정확히 파악하는 방법은 무엇이 있을까요? 아무래도 ‘그래프’를 그려보는 방법이 좋겠지요. 이럴 때는 ‘히스토그램’을 그려보는 것이 정말 유용합니다. 아래 그림과 같이 특정 연령대로 묶어서 그 연령대에 속한 인원들의 인원 수를 막대 그래프 형식으로 그린 이 히스토그램은 한 눈에 구성원들의 나이 분포를 확인할 수 있습니다.
<엑셀상 기술통계 분석과 히스토그램을 그려본 이미지>
그런데 이런 히스토그램도 수치로서 표현해볼 수 있습니다. 위 이미지는 IBM에서 샘플로서 제공하는 HR Data에 나이를 뜻하는 ‘Age’ 데이터를 히스토그램으로 표현해본 이미지 입니다. (샘플 데이터 링크)
그래프 옆에는 ‘Age’ 데이터를 엑셀의 ‘데이터 분석’ 기능 – ‘기술통계’를 통해 요약해본 내용입니다. (데이터 분석 기능과 관련해서는 지난번 글을 참고해주세요. 링크)
‘기술통계량’ 표에서 노란색으로 표시된 것들 중 평균과 중앙값은 설명했습니다만 표준편차와 왜도, 첨도에 대해서는 설명드리지 않았지요. ‘표준편차(Standard Deviation)’는 분산의 제곱근으로 데이터들이 평균값으로부터 얼마나 퍼져있는 지를 의미합니다. ‘왜도(skewness)’는 데이터의 분포가 얼마나 대칭하게 분포되어 있는지를 의미하는 값으로 음의 값(<0)을 갖는다면 데이터들이 평균을 기준으로 오른쪽에 더 많이 분포되어 있고, 왜도가 양수(>0)라면 평균을 기준으로 왼쪽으로 데이터가 더 많이 분포되어 있음을 의미합니다.
위 이미지에서는 왜도가 양의 값을 가지니 평균보다 왼쪽에 데이터가 많다는 의미인데, 실제로도 그래프가 그렇게 보이지요?
‘첨도(kurtosis)’는 데이터들이 평균값에 얼마나 집중되어 분포되어 있는 지를 의미하는 값입니다. 첨도가 음의 값(<0)을 갖는다면 데이터들이 평균값에서 떨어져서 비교적 고르게 분포되어 있다는 의미이며, 양의 값(>0)을 갖는다면 데이터들은 평균값 쪽에 많이 집중되어 있다는 점을 의미합니다. 이미지의 첨도는 음의 값을 가지니 데이터가 비교적 고르게 분포되어 있다는 것을 알 수 있겠습니다. 위에서 살펴본 왜도와 첨도도 모두 평균과 중앙값과 마찬가지로 ‘대푯값’에 해당합니다.
이런 기술 통계는 HR에서 어떨 때 이용할 수 있을까요? 대표적으로 복지제도 설계시에 참고해볼 수 있겠습니다. 즉, 하나의 대푯값만으로는 구성원의 나이와 같은 데이터를 바로 파악하기 어렵기 때문에 이렇게 다양한 대푯값을 통해 구성원 나이 데이터를 이해하고 현재 우리 조직의 평균 나이에 걸맞는 복지 뿐만 아니라 왜도가 음의 값으로서 데이터가 평균 보다 작은 쪽에 분포되어 있다는 점을 파악하여 평균 나이(ex. 37세)에 걸맞는 복지 제도 설계의 근거를 마련하고 한 발 나아가 평균 보다 어린 직원들의 비중이 높다는 점을 고려해 그들의 생애 주기에 맞는 복지제도 설계의 근거 자료로서 사용해볼 수도 있겠습니다.
(2) 상관관계 📝
상관관계(Correlation)란 두 대상이 서로 관련성이 있다고 추측되는 관계를 의미합니다.
예를 들어 더운 여름 날에 아이스크림이 잘 팔린다면 ‘높은 온도’ ↔ ‘아이스크림 판매’간에는 양의 상관관계(한 쪽이 증가하면 다른 한 쪽도 증가)가 있다고 봅니다. 추운 겨울 보다 더운 여름 날에 찜질방 손님 수가 줄어들었다면 ‘높은 온도’ ↔ ‘찜질방 방문 손님 수’간에는 음의 상관관계(한 쪽이 증가하면 다른 한 쪽은 감소)가 있다고 할 수 있습니다.
우리는 상관관계가 있는 두 대상은 서로 ‘원인’과 ‘결과’의 관계로 이해하는 경우가 더러 있는데요. 한 가지 주의해야할 것은 ‘두 대상 사이에 상관관계가 있다고 해서 인과관계(원인과 결과)가 있는 것은 아니다.’라는 점을 꼭 명심해야 되겠습니다. 예를 들어 ‘까마귀가 나니까 배 떨어진다.’라는 말에는 ‘까마귀가 나는 것’ ↔ ‘배가 떨어지는 것’ 사이에는 상관관계가 있을 수 있지만, 까마귀가 난다는 것이 원인이 되어 배가 떨어지는 결과가 초래된다고 보기는 어렵지요.
그럼 상관관계는 전혀 쓸모 없는 개념일까요? 아닙니다. 사람과 관련된 HR과 같이 원인과 결과가 아주 복잡한 사회과학 분야에서는 상관관계가 매우 유용하게 사용됩니다.
특히, 사람에 대한 일을 하는 HR에서는 상관관계를 통해 이해할 수 없는 복잡성을 단순명료화하여 지금 당장 필요한 의사결정을 내릴 수 있는 근거로서 작용할 수 있죠. 예를 들어, 우리는 지금 당장 2명의 입사 후보자 중 1인을 골라서 입사시켜야만 합니다. 그런데 과거 우리 조직에서 퇴사자가 급증했던 시기가 있어 퇴사자들의 데이터를 분석해본 결과 퇴사자들의 데이터를 쭉 살펴보니 ‘자택과 회사간 거리가 멀수록 퇴사하는 경향이 있다.’라는 ‘자택과 회사간 거리’ ↔ ‘퇴사’간 상관관계가 있음을 알아냈다면 퇴사율을 낮추기 위한 관점에서 우리는 ‘자택과 회사간 거리가 가까운 사람’을 채용하는 것이 그나마 합리적이라는 것을 알 수 있습니다.
물론 위의 예시가 ‘자택과 회사간 거리’ ↔ ‘퇴사’간에 어떤 상호작용으로 그러한 관계가 형성되었는 지, 그런 관계가 미래를 예측할 정도로 인과관계가 있는 지 등은 고려하지 않았지만 항상 상황은 우리에게 유리하게 흘러가지는 않으니까요.
<엑셀상 상관관계 분석을 해본 이미지>
위 이미지는 엑셀의 ‘데이터 분석’ 기능 – ‘상관관계 분석’을 통해 IBM의 HR 샘플 데이터상 ‘퇴사여부(Attrition)과 자택과 회사간 거리(DistanceFromHome)’의 상관관계를 분석해본 결과입니다.
약 0.78정도의 상관관계 값(계수)이 나온 것을 볼 수 있는데요. 상관관계 계수는 -1 ~ +1 사이의 값을 가지며, 0에 가까울수록 상관관계의 정도는 약하다고 볼 수 있습니다. 0.7 이상의 값을 갖는 위 상관계수는 상당히 강한 양의 상관관계를 갖고 있는 것으로 해석할 수 있고, 이는 곧 ‘자택과 회사간 거리가 먼 사람이 퇴사하는 경향이 크더라’라는 해석으로 이어집니다.
HR에서는 이런 상관관계를 어떻게 활용해볼 수 있을까요? 위에서 보셨다시피 퇴사자 데이터를 기반으로 여러 지표와 퇴사간 상관관계를 분석해서 ‘이런 사람들이 퇴사하는 경향이 높더라’라는 사실을 파악하면 실제 조사(설문조사, 인터뷰 등)를 통해 가설을 세우고 추가 조사나 다른 통계분석을 통해 이를 검증하여 퇴사 예측모델을 만들어볼 수도 있겠습니다. 그 전에 위에서 언급한 ‘입사 후보자 고르기’와 같이 한정된 시간과 자원하에서 그나마 합리적이라고 생각되는 의사결정을 내릴 수 있는 근거로서 상관관계를 사용해볼 수도 있겠습니다.
(3) 마무리
오늘은 HR에서 통계를 활용할 때 알고 있으면 좋을만한 개념인 평균과 중앙값, 왜도와 첨도의 대푯값들을 살펴보고 히스토그램, 그리고 상관관계에 대해서 살펴보았습니다.
대푯값과 상관관계의 경우 구성원의 나이대 분석과 같이 데이터에 대한 기초적인 이해에 큰 도움이 되어서 향후 제도 설계에 있어 기본적인 데이터로서 작용하게 됩니다. 이런 데이터를 엑셀에서 클릭 몇 번만으로 사용해볼 수 있으니 편하게 한 번씩 사용해보시면 미처 보지 못했던 새로운 인사이트를 얻으실 수 있지 않을까 생각하며 글을 마무리하겠습니다.
다음 시간에는 인과관계에 대해서 살펴보고 통계와 HR에 대한 내용을 마무리하도록 하겠습니다. 🙂