(Pandas/Study) Chapter 1. Introduction - Pandas(판다스)

728x90

"Life is too short, You need python"

Pandas(판다스)는 파이썬에서 데이터를 처리하기 위해 가장 필수적이며, 유용한 라이브러리입니다. 엑셀로 데이터를 처리하는 과정에서 한계를 체감했거나 답답해지는 순간에 직면한 경험이 있다면 Pandas는 최선의 선택입니다. 해당 카테고리에서는 Pandas의 기본 사용법들을 익히고 전처리에 어떤 방식으로 활용되는지 공부해 보도록 하겠습니다.

Introduction - Pandas, 판다스란 무엇인가?

Pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool,
built on top of the Python programming language.

판다스는 데이터 분석 및 조작을 위한 도구이며 데이터 수집과 정리에 최적화되어 있습니다. 데이터(Raw Data)들을 합치고 활용하기 좋은 형태로 정리(전처리)하는데 그 목적이 있습니다.

마치 본격적으로 요리를 시작하기 전 재료들을 손질하는 과정과 같다고 생각하시면 편합니다. 잘못 손질된 재료는 좋은 요리가 될 수 없듯 데이터 전처리 과정 또한 그렇습니다.

- Pandas 공식 홈페이지 : https://pandas.pydata.org/

pandas - Python Data Analysis Library

pandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install pandas now!

pandas.pydata.org

Anaconda 환경이시라면

conda install pandas

Pypi에서 내려받으시려면

pip install pandas

로 라이브러리를 설치하실 수 있습니다.

Why Pandas?, 왜 판다스인가?

판다스를 초심자 입장에서 쉽게 접근하기 위해서는 기본적으로 '엑셀과 같다'라고 이해하시면 됩니다.

실제 판다스 활용해서 하는 기본적인 작업들은 엑셀의 그것과 크게 다르지 않습니다.

Filtering & Sort(필터링과 소트), Vlookup, Pivot Table(피벗테이블)

90% 이상의 사용자들이 위의 기능들을 사용하기 위해 엑셀을 쓴다고 합니다. 파이썬 역시 처음은 크게 다르지 않습니다.

'그럼 왜 판다스를 써야 하나요? 그냥 익숙한 엑셀을 쓰지...'

네 맞습니다. 줄곧 엑셀로 업무를 해 오신 분들이라면 손에 익은 엑셀이 훨씬 편하실 겁니다. 그럼에도 불구하고 엑셀 대신 판다스를 써야 하는 몇 가지 이유가 있습니다.

첫째, 데이터 양이 증가할수록 파일을 읽고 조작하기가 힘듭니다.

수십만 줄 이상의 많은 데이터를 다루신 경험이 있다면 공감이 되실 겁니다. 엑셀 기능 지원과 별개로 여러분들이 직장에서 쓰는 PC는 높은 확률로 견디지 못합니다.

셀 이동에 걸리는 딜레이와 수식들 + 조건부 서식 콤보에 창이 닫혀 버리는 경험을 반복하게 되면 인내심에 한계가 오기 시작합니다.

둘째, 소위 노가다라고 불리는 반복적인 일들을 간단한 코드로 수행할 수 있습니다.

한 파일 내에 여러 Sheet로 나누어져 있는 데이터나 여러 개의 파일로 나눠져 있는 경우 파이썬 - 판다스를 사용한다면 간단한 코딩 몇 줄로 수행됩니다. So Easy!

뿐만 아니라 다른 라이브러리들과 연계를 통해 더 높은 수준의 업무 자동화나 고급 통계 분석 등이 가능하다는 잠재성이 엑셀과 결정적 차이를 짓는 부분입니다.

이외에도 많은 다른 이유들이 있겠지만 차차 설명드리도록 하고 이것 만으로 충분히 신세계를 경험하실 수 있으실 거라 생각합니다. 그래서 저는 엑셀보다 파이썬을 강력히 추천 드립니다.

How to use Pandas?, 어떻게 활용할 것인가?

그렇다면 우리는 Pandas를 어떻게 활용하면 될까요?

기업들의 많은 업무들이 시스템화 되어 있고 클릭 몇 번으로 간단히 Raw Data를 내려 받을 수 있습니다. 하지만 Raw Data 자체로는 원하는 자료를 얻는 다는 것이 쉽지 않은 일이며 반드시 전처리 과정을 거칠 필요가 있습니다.

Pandas는 Raw Data 통상적인 형태인 excel file이나 csv 파일을 읽어 들일 수 있습니다.

읽어들인 데이터는 데이터프레임 형태(엑셀의 행과 열)로 변수에 저장되고 다양한 함수들로 이 변수에 접근해 활용하기 좋은 형태로 가공합니다. 예를 들면 특정 조건에 맞는 데이터만 필터링 한다던지 정해진 기준으로 정렬을 합니다. 조건에 맞지 않는 데이터는 drop하거나 행이나 열의 특정 데이터를 원하는 형태로 일괄 변경하거나 새로운 열을 생성하기도 합니다.

또 종종 서로 다른 시스템 간 데이터를 병합 해야 하는 경우가 종종 발생하는데 병합을 위해 공통 인자를 만들기도 합니다.

피벗 테이블을 만들고 시각화 라이브러리와 연계하여 엑셀과 같이 활용하기도 합니다.

앞으로 이런 과정들을 하나씩 공부하도록 하겠습니다.

Plan to study Pandas

~~Pandas 설치~~
~~Pandas Module 불러오기~~
엑셀 파일에서 데이터 읽어오기
전처리 기술(데이터 병합 / 필터링 / 정렬하기 / 행, 열 추가 및 삭제)
피벗테이블
시각화
파이썬 & 엑셀을 활용한 보고서 작성
다른 라이브러리와 연계하여 업무 자동화
프로젝트 수행(업무 툴 제작)

마치며...

이번 포스팅에서는 Pandas에 대한 간단한 설명과 설치 방법에 대해 알아보았습니다.

다음 시간에는 Pandas Module을 Import하는 방법에 대해 알아보겠습니다.