Python

01 Getting & Knowing Data

hyerimir 2022. 8. 7. 15:49

https://www.datamanim.com/dataset/99_pandas/pandasMain.html

 

판다스 연습 튜토리얼 — DataManim

Question 43 df의 데이터 중 new_price값이 lst에 해당하는 경우의 데이터 프레임을 구하고 그 갯수를 출력하라 lst =[1.69, 2.39, 3.39, 4.45, 9.25, 10.98, 11.75, 16.98]

www.datamanim.com

 

Question 1

데이터를 로드하라. 데이터는 \t을 기준으로 구분되어있다.

DataUrl = 'https://raw.githubusercontent.com/Datamanim/pandas/main/lol.csv'
df = pd.read_csv(DataUrl,sep='\t')

pd.read_csv()

한글 데이터 불러올 때는 encoding = 'cp949' 추가

parameters : sep=, header=, names=, index_col=, skiprows=, nrows= 등

 

 

Question 2

데이터의 상위 5개 행을 출력하라

Ans = df.head(5)
Ans

df.head()

 

 

Question 3

데이터의 행과 열의 갯수를 파악하라

print(df.shape)
print('행:',df.shape[0])
print('열:',df.shape[1])

df.shape

행과 열의 개수를 튜플 형태로 알려준다

 

Question 4

전체 컬럼을 출력하라

Ans = df.columns
Ans

df.columns

df 열 레이블 반환

 

 

Question 5

6번째 컬럼명을 출력하라

Ans = df.columns[5]
Ans

 

Question 6

6번째 컬럼의 데이터 타입을 확인하라

Ans = df.iloc[:,5].dtype
Ans

df.dtype

df에서 데이터 타입 반환

 

 

Question 7

데이터셋의 인덱스 구성은 어떤가

Ans = df.index
Ans

df.index

df의 인덱스(행 레이블) 반환

 

 

Question 8

6번째 컬럼의 3번째 값은 무엇인가?

Ans = df.iloc[2,5]
Ans

df.iloc - 숫자

df.loc - 문자

 

 

Question 9

데이터를 로드하라. 컬럼이 한글이기에 적절한 처리해줘야함

DataUrl = 'https://raw.githubusercontent.com/Datamanim/pandas/main/Jeju.csv'
df = pd.read_csv(DataUrl,encoding='euc-kr')

type(df)

 

Question 10

데이터 마지막 3개행을 출력하라

Ans = df.tail(3)
Ans

df.tail()

 

 

Question 11

수치형 변수를 가진 컬럼을 출력하라

Ans = df.select_dtypes(exclude=object).columns
Ans

df.select_dtypes(exclude=object).columns

 

 

 

Question 12

범주형 변수를 가진 컬럼을 출력하라

Ans = df.select_dtypes(include=object).columns
Ans

df.select_dtypes(include=object).columns

 

 

Question 13

각 컬럼의 결측치 숫자를 파악하라

Ans = df.isnull().sum()
Ans

df.isnull().sum()

각 컬럼의 결측치 숫자 파악

 

 

Question 14

각 컬럼의 데이터수, 데이터 타입을 한번에 확인하라

df.info()

df.info()

각 컬럼의 데이터 수, 데이터 타입을 한 번에 확인

 

 

Question 15

각 수치형 변수의 분포(사분위, 평균, 표준편차, 최대 , 최소)를 확인하라

Ans = df.describe()
Ans

df.describe()

각 수치형 변수의 분포(사분위, 평균, 표준편차, 최대, 최소)를 확인

 

 

Question 16

거주인구 컬럼의 값들을 출력하라

Ans = df['거주인구']
Ans

 

 

Question 17

평균 속도 컬럼의 4분위 범위(IQR) 값을 구하여라

Ans  = df['평균 속도'].quantile(0.75) -df['평균 속도'].quantile(0.25)
Ans

 

Question 18

읍면동명 컬럼의 유일값 갯수를 출력하라

Ans = df.읍면동명.nunique()
Ans

df.특정변수.nunique()

특정변수의 유일값 개수 출력

 

 

Question 19

읍면동명 컬럼의 유일값을 모두 출력하라

Ans = df.읍면동명.unique()
Ans

df.특정변수.unique()

특정변수의 유일값 모두 출력