개요

정리

기본 사용법

  • import pandas as pd
  • 기본적으로 pd로 약어로 하여 사용한다.
  • pandas는 DataFrame과 Series로 구성된다.
  • DataFrame
    • 테이블 형태로 entries로 이루어진 배열로 각자 value를 가지고 있다.
    • row(행,record)와 column(열)로 이루어져있다.
  • Series
    • dataframe에서 하나의 열(column)만 표현.

DataFrame

  • 기본 사용법
    • pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})
    • dict형식으로 데이터를 표현한다.
    • dict의 key값은 열(column)의 이름이 되고, value의 배열은 그 열의 entries가 되는것이다.
    • 행의 이름(index)는 기본적으로 따로 지정해주지 않아도 0부터 1씩 증가하는 식으로 자동으로 지정된다.
  • 특정 index 부여
    • pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]},index = ["item a","item b"])
    • index는 따로 지정 해주지 않으면 0부터 시작해 알아서 부여된다.
    • 위처럼 하면 yes column에서 item a는 50이 된다.

Series

  • 기본사용법
    • pd.Series([3,9,1,2,3])
    • 배열로 이루어짐
    • 하나의 열의 value로만 이루어진 형태
    • dataframe을 세로로 하나의 열만 꺼내온 모습
    • column이름 지정은 없다.
    • dataframe처럼 index지정도 가능

파일(csv)읽기

  • csvfile = pd.read_csv("경로")
  • index문제
    • csvfile = pd.read_csv("경로",index_col= 0)
    • csv는 자체적으로 제일 왼쪽 column에 index번호가 지정되어있다.
    • 바로 읽으면 dataframe으로 만들면서 빈 column이름의 index번호로 이루어진 하나의 column이 추가된다.
    • 이를 해결하기 위해 index_col 옵션을 사용
      • 새로 index를 만들지 않고 특정 열column을 index로 지정해주는 옵션이다.
      • 숫자로 열의 번호를 작성