https://www.datamanim.com/dataset/03_dataq/typeone.html#id6

 

작업 1유형 — DataManim

Question 각 비디오는 10분 간격으로 구독자수, 좋아요, 싫어요수, 댓글수가 수집된것으로 알려졌다. 공범 EP1의 비디오정보 데이터중 수집간격이 5분 이하, 20분이상인 데이터 구간( 해당 시점 전,후

www.datamanim.com

 

 

Question

price_range 의 각 value를 그룹핑하여 각 그룹의 n_cores 의 빈도가 가장높은 value와 그 빈도수를 구하여라

import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/mobile/train.csv")
df.head()

 

 

data = df[['price_range','n_cores']].groupby(['price_range','n_cores']).size()
data

 

 

df[['price_range','n_cores']].groupby(['price_range','n_cores']).size().sort_values(0)

 

pandas.Series.sort_values()

parameters; 축 : 기본값이 0, 직접 정렬을 위한 축

DataFrame.sort_values와의 호환성을 위해 'index'값이 허용됨

 

 

df[['price_range','n_cores']].groupby(['price_range','n_cores']).size().sort_values(0).groupby(level=0).head()

 

level은 index의 깊이를 의미하며 가장 왼쪽에서부터 0에서부터 1씩 증가

 

 

answer = df[['price_range','n_cores']].groupby(['price_range','n_cores']).size().sort_values(0).groupby(level=0).tail(1)
answer

 

 

 

Question

price_range 값이 3인 그룹에서 상관관계가 2번째로 높은 두 컬럼과 그 상관계수를 구하여라

df.loc[df['price_range']==3].corr()

 

 

df.loc[df['price_range']==3].corr().unstack()

 

 

cordf = df.loc[df['price_range']==3].corr().unstack().sort_values(ascending=False)
cordf

 

 

cordf = df.loc[df['price_range']==3].corr().unstack().sort_values(ascending=False)
answer  = cordf.loc[cordf!=1].reset_index().iloc[1]
print(answer)

 

 

 

 

 

 

+ Recent posts