데이터 엔지니어링 전공자는 아니지만,
현업에서 마주하는 데이터 관리의 한계를 해결하고자 별도의 서버 인프라나 예산 없이
사내 개인 PC(로컬 환경)만을 활용한 데이터 웨어하우스(DW) 구축을 시도해 보았습니다.
이번 글에서는 왜 HR 현업에서 데이터 웨어하우스 구축을 고민하게 되었는지,
데이터 웨어하우스 구축을 통해 데이터를 관리할 때 얻을 수 있는 이점을 정리해 보았습니다.
HR 데이터의 구체적인 활용 사례를 중심으로 그 변화를 공유하고자 합니다.
1. HR 데이터는 어떻게 이루어져 있을까?
사실 데이터가 여러 시스템과 형식으로 분산되어 관리의 어려움을 겪는 것은
아마 많은 현업 부서가 마주한 공통의 과제일 것입니다.
특히 HR 데이터는 그 특성상 정보의 형태와 출처가 매우 다양하여,
이를 하나로 묶어 관리하는 통합 관리가 어려울 수 있습니다.
기초적인 인적 사항부터 정성적인 평가 기록, 그리고 외부 시장 데이터 등
HR 업무를 수행하며 다루게 되는 데이터의 범위는 넓고 다양합니다.
물론 구체적인 업무 역할이나 기업의 환경에 따라 차이가 있을 수 있지만,
실무에서 마주하게 될 수 있는 주요 데이터 현황을 다음과 같이 예시로 들어보겠습니다.
| 구분 | 항목 | 세부 사항 | 출처(예시) | 형식 |
| 내부 데이터 |
인적 사항 | 이름, 성별, 생년월일 등 기초 정보 | 사내 인사 시스템 | XLSX |
| 경력/평가 | 이전 직장 정보, 연도별 평가 등급 | 사내 인사 시스템 | XLSX | |
| 보상/근태 | 연봉, 수당, 근무시간, 휴가 정보 | 급여 및 근태 관리 시스템 | XLSX | |
| 증빙/문서 | 출입 기록, 결재 문서, 사내 규정 | 사내 그룹웨어 및 게시판 | ||
| 오프라인 데이터 | 임단협 협약서, 개별 서류 등 | 담당자 개별 PC | ||
| 외부 데이터 |
시장 정보 | 기업 공시, 재무 정보 등 | 외부 공시 사이트 | 수작업 |
| 채용/트렌드 | 채용 공고, 동종사 정보 등 | 외부 채용 플랫폼 및 커뮤니티 | 수작업 |
이처럼 데이터는 정형·비정형 데이터가 혼합되어 있고 여러 경로에 흩어져 있습니다.
이러한 환경에서는 데이터의 정합성을 유지하기 어렵고,
여러 소스를 결합한 통합 분석이나 실시간 활용에 물리적인 한계가 따를 수밖에 없습니다.
현재 데이터 관리 방식의 문제점
이러한 데이터 관리 방식은 다음과 같은 문제를 일으킬 수 있습니다.

| 문제 | 설명 |
| ❶ 데이터 접근성 문제 | 여러 시스템에 흩어진 데이터를 한눈에 볼 수 없어, 필요한 정보를 빠르게 찾기 어렵습니다. |
| ❷ 데이터 일관성 부족 | 동일한 데이터가 서로 다른 형식으로 존재해 중복이나 불일치가 발생할 수 있습니다. |
| ❸ 데이터 분석의 어려움 | 데이터를 통합·분석하기 위한 추가 작업이 필요하고, 분석 정확성이 저하됩니다. |
2. 반복되는 데이터 가공, 실제 업무에서는 어떻게 발생할까?
업무 환경이나 시스템 구성에 따라 차이가 있을 수 있지만,
앞서 언급한 것처럼 정보의 형태가 다양하고 데이터가 여러 경로에 흩어져 있는 상황이라면
이를 분석 목적에 맞춰 데이터를 추출하고 병합하는 과정이 필요할 수 있습니다.
특히 근태 관리나 인원 현황 파악 등 정확한 판단이 필요한 업무를 수행할 때,
데이터의 신뢰도를 높이기 위한 가공 작업이 수반될 수 있는데요.
이러한 환경을 바탕으로 현업에서 마주할 수 있는 상황을 가정하여, 아래의 사례를 예시로 살펴보겠습니다.
데이터 활용 사례 예시: A본부 5개년 근무시간 데이터 통합 분석
업무 환경이나 시스템 구성에 따라 차이가 있습니다.
앞서 언급한 것처럼 정보의 형태가 다양하고 데이터가 여러 경로에 흩어져 있는 상황을 가정합니다.
가령 'A본부의 5개년 근무시간 통합 분석' 요청이 들어왔다고 가정해 보겠습니다.
이 작업은 언뜻 단순해 보이지만, 아래와 같이 꽤 복잡하고 수작업이 많이 필요한 과정을 거치게 될 수 있습니다.
- 방대한 데이터 규모: 시스템 제약으로 데이터를 한꺼번에 내려받기 어려워,
총 60개(5개년)의 월별 엑셀 파일을 일일이 열어 확인하고 복사·붙여넣기하는 수작업이 선행됩니다.
특히 이 과정에서 데이터 양이 과도해질 경우, 엑셀이 응답하지 않거나 프로그램이 강제 종료되는 등의 '멈춤 현상'이
빈번하게 발생하여 업무의 연속성이 끊기고 작업 시간이 예상보다 훨씬 길어지기도 합니다. - 복합적인 인사 변동 사항: 단순히 파일을 합치는 것뿐만 아니라,
그사이 발생한 조직 신설, 법인 변경에 따른 사번 변경, 퇴사 후 재입사자 식별 등
복잡한 이력을 일일이 대조하며 데이터의 정합성을 맞추는 작업이 필요합니다.
이처럼 분석 결과의 왜곡을 막기 위해 모든 대상자의 기록을 빠짐없이 매칭하여 데이터의 정합성을 확보하는 과정은 필수적이나,
이를 실무자가 수기로 검증하는 과정에서 막대한 리소스 소모와 휴먼 에러의 위험이 상존합니다. - 반복되는 계산 작업: 병합된 데이터에 매번 계산식을 다시 적용하여
'월 근무시간'을 '주 평균 근무시간'으로 변환하는 소모적인 과정이 뒤따릅니다.
❶ 개요 및 목적
| 항목 | 내용 |
| 분석 주제 | 최근 5개년 데이터를 활용한 개인별 주 평균 근무시간 산출 |
| 분석 배경 | 5년간 발생한 조직 신설, 법인 변경 등 복잡한 인사 변동 사항을 반영한 정확한 근무 현황 파악 필요 |
❷ 데이터 준비 및 현황 파악
| 항목 | 내용 |
| 데이터 범위 | 지난 5년간(60개월)의 월별 근무시간 원천 자료 |
| 파일 수 | 총 60여 개의 엑셀 파일 |
❸ 분석 방식 비교
A본부의 법인 변경 이력에 따른 개인별 근무시간 분석을 예시로,
엑셀과 파이썬을 활용한 방식을 비교하면 다음과 같은 차이가 발생합니다.

| 구분 | 엑셀 (수작업) | 파이썬 (자동화) |
| 병합 과정 | 60개의 월별 엑셀 파일을 일일이 열고 복사 · 붙여넣기하여 수동 병합 |
코드 한 번 실행으로 즉시 병합 |
| 데이터 변환 | 매번 계산식 입력하여 주 평균 근무시간 산출 | 사전 정의 로직으로 자동 변환 |
| 재사용성 | 유사 작업 시 매번 다시 수행 | 코드 재사용으로 즉시 대응 |
| 소요 시간 | 수 시간 ~ 수 일 | 수 분 |
| 오류 가능성 | 높음 (휴먼 에러) | 낮음 (일관된 로직) |
※ 실제로 파이썬을 이용해 똑같은 형식의 파일을 병합해보고 싶으시다면, 아래의 가이드를 참고해 주세요.
02. HR 데이터 전처리: 파일 병합 및 분리 업무 사례
해당 글에서는 Python과 생성형 AI를 활용해 HR 데이터 전처리하는 방법을 소개합니다.여러 개의 파일을 병합하고 특정 기준으로 데이터를 분리하는 작업은 다양한 업무에 활용될 수 있는 실용적
kshiny.tistory.com
추가 요청 대응 방식 비교
분석의 기준(대상, 기간 등)이 변경되는 상황에서는,
기존에 정리해두었던 데이터를 그대로 다시 활용하기 어려운 상황이 발생할 수 있습니다.
더불어 요청 조건이 세분화되거나 분석해야 할 데이터의 범위가 넓어지면서 파일 용량이 커지면,
엑셀이 무거워져 작업 속도가 현저히 더뎌지는 등의 물리적인 한계에 부딪히기도 합니다.
이러한 환경에서 마주할 수 있는 ‘추가 분석 요청’ 시나리오를 예시로 가정해 보겠습니다.
요청자: "혹시 이번에는 A본부가 아니라 B본부 기준으로,
기간도 2021년 1월부터 2023년 12월까지 맞춰서 다시 비교해볼 수 있을까요?"
담당자: "네, 다시 확인해 보겠습니다."
(속마음: 기존에 정리한 파일은 분석 조건이 달라 그대로 쓰기 어려울 수 있겠네.
필요한 데이터를 다시 추출하고 병합한 뒤에 수식까지 새로 점검하려면, 생각보다 작업 시간이 꽤 걸리겠는걸...)
| 구분 | 엑셀(수작업) | 파이썬(코드 활용) |
| 대응 방식 | 부서 선택, 해당 기간 데이터 다운 후 처음부터 병합 | 코드 내 조건값(본부, 기간)만 수정 후 재실행 |
| 소요 시간 | ~수 시간 | ~수 분 |
앞선 사례에서 보듯 파이썬 코드를 통한 자동화는 단순한 '속도 향상'을 넘어,
데이터를 일관된 규칙으로 정제하고 축적할 수 있는 토대를 마련해 줄 수 있습니다.
이렇게 코드로 정제된 데이터들이 로컬 DB에 하나둘 쌓이게 되면,
비로소 언제든 원하는 정보를 즉시 꺼낼 수 있는 '나만의 데이터 웨어하우스(DW)'가 완성됩니다.
실무자가 체감할 수 있는 구체적인 기대 효과는 다음 그림과 같이 정리해볼 수 있습니다.

3. HR 데이터 웨어하우스 도입 배경
앞서 확인한 것처럼, HR 데이터가 여러 시스템에 파편화되어 있는 경우라면
단순한 분석 요청에도 상당한 시간과 수작업이 소요될 수 있습니다.
이러한 업무 구조의 효율성을 높이기 위해 고민한 방법이 바로
'사내 개인 PC(로컬 환경)만을 활용한 데이터 웨어하우스(DW) 구축'입니다.
특히 고가의 인프라를 도입하기보다,
사내 개인 PC(로컬 환경) 내에 정제된 데이터를 사전에 적재해두는 데이터 마트(Data Mart) 구조를 설계하여,
복잡한 가공 과정 없이 조건 입력만으로 원하는 정보를 즉시 조회할 수 있는 원활한 환경 구현을 목표로 했습니다.
데이터 웨어하우스를 구축하면 다음과 같은 이점을 기대해 볼 수 있습니다.
- 효율성: 중복 데이터를 제거하고 빠른 검색이 가능해져, 복잡한 구조의 데이터도 빠르게 조회 가능
- 정확성: 일관된 정제 로직을 적용하여 휴먼 에러를 방지하고 데이터의 신뢰도 확보
- 안전성: 로컬 내 데이터 백업 체계 마련으로 데이터 유실 방지 및 이력 관리 용이
- 편의성: 다양한 분석 조건에 유연하게 대응하며, 향후 시각화 도구(BI)와의 연동도 원활함

데이터 적재까지의 실제 과정
데이터 웨어하우스도 처음부터 단시간에 구축되지는 않습니다.
기존 엑셀 방식과 마찬가지로 데이터 수집 → 병합 → 전처리 과정은 동일하게 필요합니다.
다만 가장 큰 차이는, 이 모든 과정을 매번 수동으로 반복하는 대신 파이썬 코드를 활용해 자동화·표준화한다는 점입니다.
이를 통해 수작업을 최소화하고, 누가 작업하더라도 통일된 결과가 나올 수 있는 체계를 갖추게 됩니다.
| 단계 | 주요 작업 내용 |
| ❶ 수집 | 사내 인사/급여/근태 시스템 등 시스템별로 흩어진 데이터를 목적에 맞춰 추출 |
| ❷ 병합 | 연도, 부서, 법인별로 상이한 데이터 형식을 파이썬으로 통합하여 수작업 최소화 |
| ❸ 정제 | 포맷 통일, 누락값 및 이상치 처리에 일관된 코드를 일괄 적용 |
| ❹ 적재 | 정제된 데이터를 효율적으로 조회할 수 있도록 설계된 데이터 열 구조(스키마)에 맞춰 저장 |
| ❺ 관리 | 정기적인 데이터 업데이트 및 백업을 통해 데이터의 최신성과 안정성 유지 |
데이터 웨어하우스 구축 전후 비교
구축 전후 모두 시스템에서 데이터를 다운로드하는 과정은 동일하지만,
그 이후에 발생하는 통합 및 전처리 과정의 자동화 여부에서 큰 차이가 발생합니다.
- 구축 전 (매 요청마다 반복)
- 정제 규칙에 맞게 매번 처음부터 다시 정리하는 비효율이 반복됨
- 시스템별로 흩어진 데이터를 일일이 다운로드
- 형식이 다른 데이터를 수작업으로 통합
- 구축 후 (쿼리 한 줄로 즉시 결과 도출)
- 전체 기간과 부서의 데이터를 코드로 미리 한 번만 정제하고 적재해두면 됨
- 특정 부서 필터링, 기간 재분석, 성별/연차/평가별 지표 분석 등
- 더 이상 파일을 하나하나 열고 병합·계산할 필요 없이 쿼리(Query) 명령어로 즉시 조회
*쿼리: 데이터베이스에 조건을 입력하여 데이터를 조회하는 명령어
구축 전에는 분석 요청이 들어올 때마다 데이터 다운로드, 수동 통합, 정제 작업을
매번 처음부터 반복해야 하는 번거로움이 생길 수 있습니다.
하지만 구축 후에는 이미 정제된 통합 저장소에서 *쿼리(Query) 한 줄로 즉시 결과를 얻을 수 있습니다.

| 항목 | 기존 방식 (엑셀) | 데이터 웨어하우스 활용 방식 |
| 데이터 위치 | 여러 시스템에 산재 | 하나의 통합 저장소에 관리 |
| 작업 방식 | 매번 다운로드 → 수동 병합 → 계산 | 쿼리만 입력하면 즉시 조회 |
| 반복 업무 | 기준 변경 시 처음부터 다시 가공 | 기존 테이블 활용, 조건만 수정 |
| 정확도 | 수작업 오류 발생 가능성 있음 | 정제된 데이터로 일관성 확보 |
| 소요 시간 | 수십 분 ~ 수 시간 | 1분 이내 |
| 확장성 | 새로운 기준 대응에 리소스 많이 소요 | 다양한 조건 대응에 유연함 |
4. 마무리하며
데이터 웨어하우스(DW)는 단순히 데이터를 모아두는 저장소 이상의 의미를 지닐 수 있습니다.
한 번의 구조화 작업을 거치면 반복되던 소모적 업무를 줄이는 데 도움이 될 뿐만 아니라,
분석의 속도와 정확도를 높일 수 있는 토대가 마련될 수 있기 때문입니다.
특히 별도의 비용 없이 현재 사용하는 사내 개인 PC(로컬 환경)을 효율적으로 활용함으로써,
데이터 가공에 투입되던 물리적인 시간과 수고를 덜어내고,
데이터가 가진 본질적인 의미를 해석하는 데 더 집중할 수 있는 기회가 될 수도 있을 것 같습니다.
'데이터 인프라' 카테고리의 다른 글
| 05. PostgreSQL 서버 구축 가이드 (0) | 2026.02.23 |
|---|---|
| 04. 데이터 웨어하우스(DW) 구축 및 운영 환경 진단 (0) | 2026.02.23 |
| 03. HR 데이터 인프라 구축을 위한 데이터베이스 선택 (0) | 2026.02.13 |
| 02. 데이터 처리 및 분석 도구 비교 (Excel vs Python vs Database) (0) | 2026.02.13 |