요약
# 데이터프레임 함수
# 인덱스를 설정 df.index = []
# 컬럼명을 설정 df.columns = []
# 인덱스의이름을 변경 df.rename ({기존인덱스:새로운 인덱스, ...},inplace=)
# 컬럼명을 변경 df.rename([기존컬럼:새로운컬럼],inplace=)
# 인덱스를 삭제 df.drop([인덱스명], axis=0)
# 컬럼 삭제 df.drop([컬럼명],axis=1)
# 인덱스 설정 df.set_index(['수학','영어'], inplace=True
# 데이터프레임의 행과 열을 바꿈 : 전치행렬 df = df.T #df.transpose
# 새로운 인덱스 이름 부여 :ndf = df.reindex(new_index,[fill_value= 또는 method=])
# 인덱스 제거 df.reset_index([drop=True]) 인덱스를 컬럼으로 변환하지 않음
# 인덱스 기준으로 정렬 df.sort_index([ascending=])
# 컬럼 기준으로 정렬 df.sort_values(by=[컬럼명])
# file_io: 읽기 : read_ , 쓰기 : to_
# csv, excel, json,html, sql, sas,spas, latex, xml,hdf,Feather Format, Orc
# df.head(n) #자료의 처음에서 n(default:5)개의 행을 가져옴
# df.tail(n) # 자료의 끝에서 n(default:5)개의 행을 가져옴
# df.info() # 인덱스(자료)이 갯수, 컬럼의 정보를 보여 줌
# df.describe() #기술 통계 정보 요약
# df.count() #각 열의 데이터 갯수 : count() , 실제 값이 존재하는 자료만 count (Nan 값은 세지않는다)
# df[열이름].value_counts() #각 열의 고유 값의 갯수
# df[열이름].mean() #열의 평균값 :
# df.median() #열의 중간값 : df[['mpg','weight']].median() ,df.median(numeric_only=True)
# max() # 열의 최대 값
# min() #최소:
# std() # 표준편차: df.std(numeric_only=True)
# var() #분산: df.var(numeric_only=True)
# corr() : 상관계수
# plot() #index - > x축, 년도를 기준으로
# df.plot(kind='bar')
# df.plot(kind='hist')
# df.plot(x='weight',y='mpg', kind='scatter')
# kind
# ‘line’ : line plot (default)
# ‘bar’ : vertical bar plot
# ‘barh’ : horizontal bar plot
# ‘hist’ : histogram
# ‘box’ : boxplot
# ‘kde’ : Kernel Density Estimation plot
# ‘density’ : same as ‘kde’
# ‘area’ : area plot
# ‘pie’ : pie plot
# ‘scatter’ : scatter plot (DataFrame only)
# ‘hexbin’ : hexbin plot (DataFrame only)
[이 게시물은 관리자 님에 의해 2023-10-11 15:24:36 Cloud 에서 이동됨]