개요
- kaggle에서 튜토리얼로 pandas가 있어서 복습할겸 다시 정리
정리
요약(summary)함수들
describe()- 갯수, 평균, 최대 등을 표시
- dataframe.열이름.describe()
median()- median값 출력
mean()- 평균값 표시
- dataframe.열이름.mean()
min()- 최소
max()- 최대
idxmax()- 내림차순으로 index를 출력해준다.
count()- 갯수확인, nan은 안센다.
size- 갯수확인, nan도 포함해서 센다.
unique()- 중복을 제외한 유니크한 값만 표시
- dataframe.열이름.unique()
value_counts()- 해당 열의 유니크한 값들이 몇번 나왔는지 센다.
- dataframe.열이름.value_counts
map
- 배열의 값들을 또다른 배열과 매핑(map)해서 새로운 배열을 만드는것
- 기존 데이터의 값을 수정하거나 새로운 포멧으로 변경할때 사용
- 사용법은 python의 map과 같다.
-
새로운 Series와 DataFrame을 만들기 때문에 기존 데이터는 수정이 안된다.
map()- 새로운 Series(열)을 출력한다.
-
review_points_mean = reviews.points.mean() reviews.points.map(lambda p: p - review_points_mean) - 위는 points라는 열에서 각 값을 mean값과 뺀 결과를 보여준다.
apply()- map()과 같지만, 새로운 dataframe을 출력
-
def remean_points(row): row.points = row.points - review_points_mean return row reviews.apply(remean_points, axis='columns') - 위는 각 행 마다 반복으로 points라는 열의 값을 평균과 뺀 값으로 넣어준다.
- axis는 columns와 index로 정할 수 있다.
- 위의 map없이도 바로 계산이 되기도 한다.(
built-in)reviews.points - review_points_mean- 위의 map()의 예시와 같은 결과가 나온다.
reviews.country + " - " + reviews.region_1- country열의 값과 region_1열의 값 사이에 -가 들어간 값을 출력한다.