본문으로 바로가기
해당 글에서는 Python과 생성형 AI를 활용해 HR 데이터 전처리하는 방법을 소개합니다.
여러 개의 파일을 병합하고 특정 기준으로 데이터를 분리하는 작업은
다양한 업무에 활용될 수 있는 실용적인 사례입니다.

 

진행 과정 한 눈에 보기:  파일 병합 및 분리 

단계 수행 내용 목적 및 활용 사례
① 파일 분할 엑셀 데이터를 특정 조건(예: 부서) 기준으로 나누기 월 단위를 주 단위로 분할하거나, 조직 데이터를 특정 부서 기준으로 나누는 등의 작업을 보다 효율적으로 수행 가능
② 파일 병합 나뉜 파일들을 하나로 통합 월별 데이터를 연 단위로 합치거나, 전체 조직 지표를 산출할 때 유용하게 활용 가능
③ 파일 병합 (GUI) 파일 선택 → 병합 수행 → 결과 저장 사용자 친화적 인터페이스와 버튼 클릭만으로 작업을 자동화할 수 있어, 손쉽게 처리 가능

 


1. 예시로 살펴보는 업무 사례

예시로, 특정 부서의 주 평균 근무시간을 산출하려면 어떤 작업이 필요할까요?

 

기준 기간을 2019년 6월부터 2025년 1월까지로 설정하면,

해당 기간 동안 월 단위로 존재하는 총 68개의 엑셀 파일을 열고 병합하고,

월 단위 근무시간 데이터가 담겨 있는 각 파일을 바탕으로 주 평균 근무시간을 계산하려면 계산식을 적용해야 합니다.

 

이처럼 반복적인 업무는 오류 발생 가능성도 높고, 많은 시간과 노력이 소모됩니다.


2. 파일 분리 및 병합 프로세스 소개

따라서, 이번 글에서는 이전 게시글에서 생성한 가상의 사원 리스트 데이터를 활용하여

부서 기준으로 파일을 분리하고, 분리한 파일을 병합해보는 과정을 다뤄보려 합니다.

 

2.1. 부서 기준으로 파일 분할

파일 분할은 간단하게 이루어질 수 있습니다.

먼저, 가지고 있는 파일에 대한 정보(경로, 파일명)를 전달하고, 분할의 기준이 되는 조건에 대해 상세히 설명합니다.

해당 프로세스에서는, '부서' 열을 기준으로 하여 분할을 진행해보겠습니다.

 

2.1.1. 프롬프트

아래 작업을 자동으로 처리할 수 있는 파이썬 코드를 작성해줘.


1️⃣ 파일 경로 설정:
  • 현재 코드를 작성하고 있는 경로에 ‘사원리스트_2024.xlsx’ 파일이 있어.
  • 해당 파일의 데이터를 불러와서 처리해줘.
2️⃣ 데이터 처리:
  • 데이터에는 ‘부서’라는 열이 포함되어 있어.
  • 이 열을 기준으로 데이터를 부서별로 분리해줘.
3️⃣ 파일 저장:
  • 분리된 각 부서 데이터를 개별 엑셀 파일로 저장해줘.
  • 저장 폴더는 현재 경로에 ‘사원리스트_2024_부서’라는 이름으로 생성해줘.
  • 각 파일의 이름은 ‘사원리스트_2024_부서명.xlsx’ 형식으로 저장해줘.

 

2.1.2. GPT 답변

 

2.1.3. 실행 결과

위의 프롬프트로 생성된 코드를 실행한 결과, 부서별로 파일이 잘 분리된 것을 확인할 수 있습니다.

2.1. 부서 기준으로 파일 분할하는 과정

 


2.2. 분할한 파일을 병합

다음은 부서별로 분할된 파일들을 토대로 전체 병합을 진행해보겠습니다.

 

2.2.1. 프롬프트

아래 작업을 자동으로 처리할 수 있는 파이썬 코드를 작성해줘.


1️⃣ 폴더 경로 설정:
  • 현재 코드를 작성하고 있는 경로에 ‘사원리스트_2024_부서’ 폴더가 있어.
  • 이 폴더 안에 있는 모든 .xlsx 파일을 읽어와서 병합해줘.
2️⃣ 파일 병합 처리:
  • 모든 엑셀 파일의 데이터를 하나로 병합해줘.
  • 병합 시 컬럼 구조가 동일한 파일들을 대상으로 해줘.
3️⃣ 병합 결과 저장:
  • 병합된 데이터를 해당 폴더 안에 ‘사원리스트_2024_병합.xlsx’라는 이름으로 저장해줘.

 

2.2.2. GPT 답변

 

2.2.3. 실행 결과

위의 프롬프트로 생성된 코드를 실행한 결과, 부서별로 분리되어 있던 파일이 다시 잘 병합된 것을 확인할 수 있습니다.

 

2.2. 분할한 파일을 병합

2.3. GUI 기능 구현

위의 [2.2.] 과정에서 Excel 파일을 분할하고 병합하는 과정 이외에,

텍스트 명령어가 아닌 버튼, 아이콘, 창 등을 이용해 조작하는 'GUI(그래픽 기반의 사용자 인터페이스) 환경'을 구현해보겠습니다.

 

파이썬으로 Excel 데이터를 다루다 보면 가장 많이 부딪히는 장벽 중 하나가 바로 '파일 경로 지정'입니다.

실제로 위의 과정을 진행하기 위해서는 아래 코드와 같이 경로를 지정해 주어야 합니다.

df = pd.read_excel("C:/Users/username/Desktop/사원리스트.xlsx")

 

코드 작성에 생소하다면, 이런 코드를 볼 때마다 "파일이 어디 있어야  하지?" 등에 대한 고민과 어려움이 생깁니다.

하지만, GUI를 사용하면 파일 경로를 일일이 지정하지 않아도, [파일 선택] 버튼을 클릭해서 직접 원하는 파일을 고를 수 있습니다.

 

2.3.1. 프롬프트

아래 작업을 자동으로 처리할 수 있는 GUI 기반 파이썬 코드를 작성해줘.


1️⃣ 사용자 폴더 선택:
  • 사용자가 GUI 창을 통해 특정 폴더를 선택할 수 있도록 해줘.
  • 선택한 폴더 안에 있는 모든 .xlsx 파일을 병합 대상으로 설정해줘.
2️⃣ 파일 병합 처리:
  • 선택된 폴더 내 .xlsx 파일들은 모두 동일한 양식으로 작성되어 있고, 이 파일들을 병합해줘.
  • 병합 진행률을 GUI 창에서 확인할 수 있도록 프로그레스바를 만들어 줘.
3️⃣ 병합 결과 저장:
  • 병합된 데이터를 선택한 폴더에 저장해줘.
  • 파일 이름은 ‘사원리스트_2024_병합.xlsx’로 지정해줘.

 

2.3.2. GPT 답변

 

2.3.3. 실행 결과

위의 프롬프트로 생성된 코드를 실행한 결과는 다음과 같습니다.

 

① 파일 병합을 원하는 폴더를 선택합니다.

 

② 폴더를 선택한 후, 실시간으로 파일 병합 진행도를 확인할 수 있습니다.

 

③ 병합이 완료되며, 병합된 파일이 저장된 경로를 알 수 있습니다.

2.3. GUI 기능 구현

 


3. 프롬프트 작성 가이드라인 팁  

원하는 요청에 따라 정확도 있는 결과값을 도출하기 위해서는 AI에게도 명확한 프롬프트가 필요합니다.

다음은 생성형 AI에게 사용자 요청에 맞는 정확한 응답을 위한 프롬프트 가이드라인입니다.

항목명 설명 작성 가이드 예시
① 입출력 폴더 명시 어디서 파일을 읽고, 어디에 결과를 저장할지를 명확히 함 "현재 경로에 있는 파일을 읽고, 사원리스트_2024_부서 폴더에 저장"
② 병합/분리 기준 명시 어떤 컬럼을 기준으로 데이터를 병합하거나 분리할지 명시 "'부서' 열 기준으로 분리해줘", "'동일 형식의 .xlsx 파일들을 병합'"
③ GUI 상 병합 진행률 표시 병합 시 GUI 상에서 실시간 작업 진행률 확인 가능 "병합하는 동안 진행 상황을 실시간으로 GUI에 표시해줘"

 


4. 마무리하며

이번 글에서는 Python과 생성형 AI를 활용해 HR 데이터를 조건에 맞게 분할하고 병합하는 전처리 과정을 단계별로 소개했습니다.

특히 부서 기준의 데이터 분리, 월 단위 데이터를 연 단위로 통합하는 등의 실무 중심 활용 사례를 통해,

반복적이고 오류 발생 가능성이 높은 작업들을 자동화하고 효율화하는 방법을 살펴보았습니다.