개요
- kaggle에서 튜토리얼로 pandas가 있어서 복습할겸 다시 정리
- 이전에 정리한 내용
정리
기본 사용법
import pandas as pd
- 기본적으로 pd로 약어로 하여 사용한다.
- pandas는 DataFrame과 Series로 구성된다.
- DataFrame
- 테이블 형태로 entries로 이루어진 배열로 각자 value를 가지고 있다.
- row(행,record)와 column(열)로 이루어져있다.
- Series
- dataframe에서 하나의 열(column)만 표현.
DataFrame
- 기본 사용법
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})
- dict형식으로 데이터를 표현한다.
- dict의 key값은 열(column)의 이름이 되고, value의 배열은 그 열의 entries가 되는것이다.
- 행의 이름(index)는 기본적으로 따로 지정해주지 않아도 0부터 1씩 증가하는 식으로 자동으로 지정된다.
- 특정 index 부여
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]},index = ["item a","item b"])
- index는 따로 지정 해주지 않으면 0부터 시작해 알아서 부여된다.
- 위처럼 하면 yes column에서 item a는 50이 된다.
Series
- 기본사용법
pd.Series([3,9,1,2,3])
- 배열로 이루어짐
- 하나의 열의 value로만 이루어진 형태
- dataframe을 세로로 하나의 열만 꺼내온 모습
- column이름 지정은 없다.
- dataframe처럼 index지정도 가능
파일(csv)읽기
csvfile = pd.read_csv("경로")
- index문제
csvfile = pd.read_csv("경로",index_col= 0)
- csv는 자체적으로 제일 왼쪽 column에 index번호가 지정되어있다.
- 바로 읽으면 dataframe으로 만들면서 빈 column이름의 index번호로 이루어진 하나의 column이 추가된다.
- 이를 해결하기 위해
index_col
옵션을 사용
- 새로 index를 만들지 않고 특정 열column을 index로 지정해주는 옵션이다.
- 숫자로 열의 번호를 작성