개요

  • kaggle에서 튜토리얼로 pandas가 있어서 복습할겸 다시 정리

정리

요약(summary)함수들

  • describe()
    • 갯수, 평균, 최대 등을 표시
    • dataframe.열이름.describe()
  • median()
    • median값 출력
  • mean()
    • 평균값 표시
    • dataframe.열이름.mean()
  • min()
    • 최소
  • max()
    • 최대
  • idxmax()
    • 내림차순으로 index를 출력해준다.
  • count()
    • 갯수확인, nan은 안센다.
  • size
    • 갯수확인, nan도 포함해서 센다.
  • unique()
    • 중복을 제외한 유니크한 값만 표시
    • dataframe.열이름.unique()
  • value_counts()
    • 해당 열의 유니크한 값들이 몇번 나왔는지 센다.
    • dataframe.열이름.value_counts

map

  • 배열의 값들을 또다른 배열과 매핑(map)해서 새로운 배열을 만드는것
  • 기존 데이터의 값을 수정하거나 새로운 포멧으로 변경할때 사용
  • 사용법은 python의 map과 같다.
  • 새로운 Series와 DataFrame을 만들기 때문에 기존 데이터는 수정이 안된다.

  • map()
    • 새로운 Series(열)을 출력한다.
    •   review_points_mean = reviews.points.mean()
        reviews.points.map(lambda p: p - review_points_mean)
      
    • 위는 points라는 열에서 각 값을 mean값과 뺀 결과를 보여준다.
  • apply()
    • map()과 같지만, 새로운 dataframe을 출력
    •   def remean_points(row):
        row.points = row.points - review_points_mean
        return row
      
        reviews.apply(remean_points, axis='columns')
      
    • 위는 각 행 마다 반복으로 points라는 열의 값을 평균과 뺀 값으로 넣어준다.
    • axis는 columns와 index로 정할 수 있다.
  • 위의 map없이도 바로 계산이 되기도 한다.(built-in)
    • reviews.points - review_points_mean
      • 위의 map()의 예시와 같은 결과가 나온다.
    • reviews.country + " - " + reviews.region_1
      • country열의 값과 region_1열의 값 사이에 -가 들어간 값을 출력한다.