01 Getting & Knowing Data
https://www.datamanim.com/dataset/99_pandas/pandasMain.html
판다스 연습 튜토리얼 — DataManim
Question 43 df의 데이터 중 new_price값이 lst에 해당하는 경우의 데이터 프레임을 구하고 그 갯수를 출력하라 lst =[1.69, 2.39, 3.39, 4.45, 9.25, 10.98, 11.75, 16.98]
www.datamanim.com
Question 1
데이터를 로드하라. 데이터는 \t을 기준으로 구분되어있다.
DataUrl = 'https://raw.githubusercontent.com/Datamanim/pandas/main/lol.csv'
df = pd.read_csv(DataUrl,sep='\t')
pd.read_csv()
한글 데이터 불러올 때는 encoding = 'cp949' 추가
parameters : sep=, header=, names=, index_col=, skiprows=, nrows= 등
Question 2
데이터의 상위 5개 행을 출력하라
Ans = df.head(5)
Ans
df.head()
Question 3
데이터의 행과 열의 갯수를 파악하라
print(df.shape)
print('행:',df.shape[0])
print('열:',df.shape[1])
df.shape
행과 열의 개수를 튜플 형태로 알려준다
Question 4
전체 컬럼을 출력하라
Ans = df.columns
Ans
df.columns
df 열 레이블 반환
Question 5
6번째 컬럼명을 출력하라
Ans = df.columns[5]
Ans
Question 6
6번째 컬럼의 데이터 타입을 확인하라
Ans = df.iloc[:,5].dtype
Ans
df.dtype
df에서 데이터 타입 반환
Question 7
데이터셋의 인덱스 구성은 어떤가
Ans = df.index
Ans
df.index
df의 인덱스(행 레이블) 반환
Question 8
6번째 컬럼의 3번째 값은 무엇인가?
Ans = df.iloc[2,5]
Ans
df.iloc - 숫자
df.loc - 문자
Question 9
데이터를 로드하라. 컬럼이 한글이기에 적절한 처리해줘야함
DataUrl = 'https://raw.githubusercontent.com/Datamanim/pandas/main/Jeju.csv'
df = pd.read_csv(DataUrl,encoding='euc-kr')
type(df)
Question 10
데이터 마지막 3개행을 출력하라
Ans = df.tail(3)
Ans
df.tail()
Question 11
수치형 변수를 가진 컬럼을 출력하라
Ans = df.select_dtypes(exclude=object).columns
Ans
df.select_dtypes(exclude=object).columns
Question 12
범주형 변수를 가진 컬럼을 출력하라
Ans = df.select_dtypes(include=object).columns
Ans
df.select_dtypes(include=object).columns
Question 13
각 컬럼의 결측치 숫자를 파악하라
Ans = df.isnull().sum()
Ans
df.isnull().sum()
각 컬럼의 결측치 숫자 파악
Question 14
각 컬럼의 데이터수, 데이터 타입을 한번에 확인하라
df.info()
df.info()
각 컬럼의 데이터 수, 데이터 타입을 한 번에 확인
Question 15
각 수치형 변수의 분포(사분위, 평균, 표준편차, 최대 , 최소)를 확인하라
Ans = df.describe()
Ans
df.describe()
각 수치형 변수의 분포(사분위, 평균, 표준편차, 최대, 최소)를 확인
Question 16
거주인구 컬럼의 값들을 출력하라
Ans = df['거주인구']
Ans
Question 17
평균 속도 컬럼의 4분위 범위(IQR) 값을 구하여라
Ans = df['평균 속도'].quantile(0.75) -df['평균 속도'].quantile(0.25)
Ans
Question 18
읍면동명 컬럼의 유일값 갯수를 출력하라
Ans = df.읍면동명.nunique()
Ans
df.특정변수.nunique()
특정변수의 유일값 개수 출력
Question 19
읍면동명 컬럼의 유일값을 모두 출력하라
Ans = df.읍면동명.unique()
Ans
df.특정변수.unique()
특정변수의 유일값 모두 출력