본문 바로가기
카테고리 없음

Python 파이썬_데이터 결합 및 피벗 테이블

by 그 해 우리는 2024. 11. 28.

 

 

01. Python 데이터 결합

스파르타 코딩 클럽

1. Merge (🔥🔥🔥)

  • 📌 개념: pandas 의 함수 중 하나로, 공통컬럼을 기준으로 테이블을 병합하여, SQL 구문의 JOIN 과 가장 유사합니다.
  • 📌 주요옵션 (파라미터 라고도 부릅니다.)
  • on: 조건 컬럼이 한개인지 여러개인지
  • how: 어떤 조인 방식을 사용할 것인지 (inner, outer, left, right)
  • left ot / right on : 열기준 병합 시 기준으로 할 열의 양측 이름이 다르다면, 각각 어떤 열을 기준으로 할 지 지정합니다.
  • sort: 병합 후 인덱스 정렬 여부(True/False)
  • suffixes: 중복된 컬럼 이름의 처리
  • indicator: True 로 할 경우, 마지막 열에 병합 정보를 출력해줍니다.
 

2. Join(🔥🔥)

  • 📌 개념: pandas 의 함수 중 하나로 Join은 인덱스 기준으로 테이블을 병합합니다. 인덱스란 축을 의미해요!
  • 이를 기준으로, 다양한 옵션을 통해 조인을 할 수 있습니다.
  • 아래 데이터프레임에서의 index는 0,1,2,3 ... 을 의미해요.

 

📌 주요옵션

  • how: 어떤 조인 방식을 사용할 것인지 (inner, outer, left, right)
  • lsuffix / rsuffix: 이름이 같은 컬럼이 있을 경우, 문자열 지정하여 부여
  • sort: 인덱스 정렬여부(True / False)

3. Concat (🔥🔥🔥)

  • 📌 개념: pandas 의 함수 중 하나로, 여러 데이터프레임 또는 시리즈를 특정 축을 따라 연결하는 데 사용됩니다.
  • 📌 주요옵션
  • axis: 수직결합인지, 수평결합인지(axis=0: 수직결합(기본값) / axis=1: 수평결합)
  • join: 어떤 조인 방식을 사용할 것인지 (inner, outer, left, right)
  • join_axes : 조인 축 지정
  • keys: 데이터프레임 축이름 지정
  • ignore_index=True : 인덱스 재배열
  • 디폴트 결합 형식: outer join (합집합)

 

4. append(🔥)

 

📌 개념: pandas 의 함수 중 하나. 데이터프레임에 행을 추가하는 메서드로, 두 데이터프레임을 행 기준으로 결합

📌 주요옵션

  • ignore_index: 기존 인덱스를 사용할지 여부. False로 할 경우 0,1,2,..,n 이 부여
  • sort : 열을 사전적으로 정렬할 지 여부

02. Pivot Table

스파르타 코딩클럽

  • 📌 개념: 데이터의 열을 기준으로 피벗테이블로 변환시키는 함수.
  • 데이터 가공 및 시각화를 위해, 데이터프레임을 자유롭게 변환하는 pivot table 은 필수입니다 😃
  • 내가 원하는 컬럼들로 새로운 데이터프레임을 만들고, 이를 계산까지 할 수 있어요!
  • 📌 주요옵션
  • index: 인덱스(축) 으로 사용될 열
  • columns: 열로 사용될 열
  • values: 값으로 사용될 열

 

03. 그 외 유용한 메서드

스파르타 코딩클

1) lambda

  • 📌 개념: 람다 함수는 이름이 없는 함수로, 일반적으로 함수를 한 번만 사용하거나 함수를 인자로 전달해야 하는 경우에 매우 유용하게 사용됩니다.
대표사진 삭제

사진 설명을 입력하세요.

람다 응용

대표사진 삭제

사진 설명을 입력하세요.

2) split

  • 📌 개념: 하나의 값으로 묶여있는 데이터를 문자열 기준으로 나눌 때 사용.
  • 특정 문자나 패턴으로 나눌 수 있습니다.
  • 📌 주요옵션
  • sep: 문자열을 나눌 구분자 기입
  • maxsplit: 최대 split 횟수 (디폴트: 모두 다 나눔)
대표사진 삭제

사진 설명을 입력하세요.

사진 삭제

사진 설명을 입력하세요.

3) rrule

  • 📌 개념: dateutil 라이브러리에 속한 함수로, 날짜 데이터를 원하는 기준에 따라 output 으로 가져올 수 있습니다.

 

  • 📌 주요옵션
  • freq : 반복 주기를 나타내는 파라미터로, SECONDLY, MINUTELY, HOURLY, DAILY, WEEKLY, MONTHLY, YEARLY
  • dtstart: 반복이 시작하는 날짜와 시간을 나타냅니다.
  • interval: 주기적으로 반복되는 간격을 나타냅니다.
  • count: 생성할 날짜의 최대 수를 나타냅니다.
  • until: 반복이 끝나는 날짜와 시간을 나타냅니다.