문과출신 HRDer의 Data Scientist 과정 도전기

채용에 시간이 너무 오래 걸린다면

빠르고 정확한 프리랜서 매칭, 원티드긱스로 오세요!

신규기업 추천하면 60만원!

추천인과 신규 가입자 양쪽에 30만원씩 최대 60만원 지급

SK그룹 AI/DT 교육 중 하나인 CDS(Citizen Data Scientist) 과정은 ‘수학 또는 통계에 대한 깊은 지식 없이 자신의 전문 지식에 데이터 과학의 원리를 적용할 수 있는 비즈니스 사용자’ 양성을 목표로 하여 총 2주간 Full Time 스케쥴로 이루어져 있습니다. ’21년 저자가 직접 체험한 내용을 공유 드리고자 합니다.

 

 

첫 주는 파이썬 문법에 대해 배우고 둘째 주는 머신러닝에 대해 배우게 되는데 ‘컴퓨터 공학 비전공자’에겐 난이도가 상당히 높은 편 입니다.

 

오전 9시부터 오후 6시까지 비대면 원격 수업(’21년은 Covid-19이 한창인 시기로 100% 비대면 수업으로 진행되었습니다.)은 군사기초 훈련과 같은 고통을 안겨주었습니다. 새로운 언어와 세계관을 단기간 내에 습득하기 위해서 불가피한 교육 환경 설정이라고 생각합니다.

 

직장인에게 파이썬과 머신러닝은 비 효율적 업무의 자동화를 위한 Tool입니다. HRD 담당자는 교육행정처리(Test/Survey결과분석, 교육생 데이터 수집 및 분석, 비용정산 등)에 대한 부분은 파이썬 등의 Tool로 대체를 하고 교육 기획/실행/현업적용도 평가 등에 집중을 할 수 있습니다.

 

머신러닝의 단계는 ‘1) 데이터 불러오기 2) 데이터 전처리 3) 학습과 Test용 데이터 분리 4) 학습모델생성 5) 모델학습 및 성능평가 6) 학습된 모델에 예측하고자 하는 데이터를 넣어 예측’ 으로 구분할 수 있습니다.

 

3)에서 학습과 Test용 데이터를 분리하는 것은 제대로 학습이 되었는지 엄격히 검사하기 위함입니다. 수험생이 본인의 실력을 객관적으로 검증하기 위해서는 풀어보지 않은 문제(데이터)로 모의고사(Test)를 치루어 보아야 하는 것과 같은 이치입니다.

 

학습 모델 생성을 위해 Data가 연속형인지 범주형인지 구분할 필요가 있습니다. 연속형은 숫자 자체로 의미를 갖고 통계적 지표(평균, 중위수, 최빈값, 표준편차, 분산 등)로 사용되고, 범주형은 초등학생, 중학생, 고등학생과 같이 특정 소속에 따라 문항을 구분 짓습니다. 연속형 데이터는 학습모델(머신러닝)로 Linear Regression(선형회귀분석), Ensemble Model 등을 사용하고 범주형 데이터는 K-Nearest Neighbor, Logistic Regression 등을 사용합니다.

선형회귀분석 : A라는 변수가 B라는 변수에 어떤  영향을 주는 지 살펴보는 것 (연속형 Data를 가지고 있는 변수끼리 사용)

 

로지스틱회귀분석 : 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 것 (위 그래프를 보면 학습시간은 연속형 Data이지만 시험의 통과여부는 0과 1로 이루어져 있다. 따라서 그래프의 모양은 무한대로 우상향 할 수 없게 된다.)

 

부동산 가격을 예측하고 싶으면 지역별 가구 수, 신규 공급 물량, 기존 주택의 노후도 등을 변수로 하여 Linear Regression(선형회귀분석) 기법을 활용하고 특정 학생들의 학습량, 학습태도, IQ 등을 변수로 하여 시험에 대한 당락 여부를 예측하고 싶으면 K-Nearest Neighbor 기법을 사용해 볼 수 있습니다.

 

기억에 남는 실습 사례로 <자전거 대여량 예측>이 있는 데, ‘자전거 대여량’이란 목표값(연속형 Data)과 ‘날씨’, ‘온도’, ‘시간대’, ‘근무일여부’, ‘계절’ 등의 변수와의 상관 관계를 머신러닝 학습 방식 중 하나인 ‘Randsome Forest’를 활용하여 학습시킨 후, 학습한 모델 데이터가 얼마나 효과적인 지 평가까지 하는 Process입니다. 1차 Process 이후에도 ‘자전거 대여량’ 목표값과 상관계수가 높은 변수는 추가하고, 상관계수가 낮은 변수 및 평균치에서 과도하게 떨어져 있는 Raw Data는 제거하는 작업을 지속적으로 해 주어야 정밀한 예측이 가능합니다.

 

<이미지출처 : Summerday 블로그> 저자도 문과 출신이라 더 쉽게 설명이 불가능합니다. 100번 글로 이해하는 것 보다는 1번 직접 파이썬을 활용해 보는 것이 낫습니다.

 

현업 적용을 위해서는 사용자가 어떤 독립변수와 종속변수를 설정할 것인가에 대한 Business Domain Insight가 전제가 되어야 하고 파이썬(머신러닝을 위한 기초부품으로 생각할 수 있습니다.)과 머신러닝(PC가 스스로 학습하여 새로운 규칙을 생성하는 것)은 해당 변수들을 다양한 방법으로 요리할 수 있도록 도와줍니다.

 

CDS 과정을 이수하였다고 바로 회사의 미래 비즈니스 모델에 적합한 인력구조나 필요역량을 Big Data 기반으로 설계할 수는 없습니다. 1) 비즈니스 필드의 Data 수집 및 관리 체계 구축, 2) HR Data 수집 및 관리 체계 구축, 3) Data Driven Decision Making에 대한 경영층의 공감대 형성이 선행된 후, Domain 전문가(HR)와 IT 전문가의 협업을 통해서만 가능할 것으로 보입니다. CDS 과정은 앞에서 언급한 험난한 여정에 대한 도전 의식을 심어주는 ‘이니셔티브’ 라고 할 수 있습니다.

공유하기

HR솔루션 원티드스페이스

인사 업무 시 필요한 모든 기능은 여기에!

보러가기
0 개의 댓글
Inline Feedbacks
View all comments

인살롱 인기글

Post COVID 19 New Normal HR

(Post COVID HR New Normal)   1. Less Mobility: 현지 인재 부상과 스마트 팩토리 글로벌라이제이션으로 무수히 연결된 방식의 생활과 경제.

스타트업을 기웃거리는 HRer를 위한 조언

스타트업을 기웃거리는 HRer를 위한 조언   바야흐로 드라마 제목이 ‘스타트업’으로 방영되는 시대가 왔다. 드라마로 인해 초중고등학생들의 장래 희망에 스타트업 대표나

HR의 새로운 패러다임 : 평가만으로 보상하려 하지 마라

HR담당자에게 연말, 연초는 조직개편, 인사평가, 보상 등으로 가장 바쁜 시기입니다. 항상 구성원들은 불만을 이야기 하고 개선을 요구하는데 회사의 자원은 그에

error: 컨텐츠 도용 방지를 위해 우클릭이 금지되어 있습니다.

로그인

인살롱 계정이 없으세요? 회원가입

도움이 필요하신가요?

문의사항이 있다면 알려주세요

로그인
벌써 3개의 아티클을 읽어보셨어요!

회원가입 후 더 많은 아티클을 읽어보시고, 인사이트를 얻으세요 =)
인살롱 계정이 없으세요? 회원가입