개요
- kaggle에서 튜토리얼로 pandas가 있어서 복습할겸 다시 정리
정리
요약(summary)함수들
describe()
- 갯수, 평균, 최대 등을 표시
- dataframe.열이름.describe()
median()
- median값 출력
mean()
- 평균값 표시
- dataframe.열이름.mean()
min()
- 최소
max()
- 최대
idxmax()
- 내림차순으로 index를 출력해준다.
count()
- 갯수확인, nan은 안센다.
size
- 갯수확인, nan도 포함해서 센다.
unique()
- 중복을 제외한 유니크한 값만 표시
- dataframe.열이름.unique()
value_counts()
- 해당 열의 유니크한 값들이 몇번 나왔는지 센다.
- dataframe.열이름.value_counts
map
- 배열의 값들을 또다른 배열과 매핑(map)해서 새로운 배열을 만드는것
- 기존 데이터의 값을 수정하거나 새로운 포멧으로 변경할때 사용
- 사용법은 python의 map과 같다.
-
새로운 Series와 DataFrame을 만들기 때문에 기존 데이터는 수정이 안된다.
map()
- 새로운 Series(열)을 출력한다.
-
review_points_mean = reviews.points.mean() reviews.points.map(lambda p: p - review_points_mean)
- 위는 points라는 열에서 각 값을 mean값과 뺀 결과를 보여준다.
apply()
- map()과 같지만, 새로운 dataframe을 출력
-
def remean_points(row): row.points = row.points - review_points_mean return row reviews.apply(remean_points, axis='columns')
- 위는 각 행 마다 반복으로 points라는 열의 값을 평균과 뺀 값으로 넣어준다.
- axis는 columns와 index로 정할 수 있다.
- 위의 map없이도 바로 계산이 되기도 한다.(
built-in
)reviews.points - review_points_mean
- 위의 map()의 예시와 같은 결과가 나온다.
reviews.country + " - " + reviews.region_1
- country열의 값과 region_1열의 값 사이에 -가 들어간 값을 출력한다.