핸드폰 가격 예측 데이터

hyerimir 2022. 8. 15. 20:49

2022. 8. 15. 20:49

작업 1유형 — DataManim

Question 각 비디오는 10분 간격으로 구독자수, 좋아요, 싫어요수, 댓글수가 수집된것으로 알려졌다. 공범 EP1의 비디오정보 데이터중 수집간격이 5분 이하, 20분이상인 데이터 구간( 해당 시점 전,후

www.datamanim.com

Question

price_range 의 각 value를 그룹핑하여 각 그룹의 n_cores 의 빈도가 가장높은 value와 그 빈도수를 구하여라

import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/mobile/train.csv")
df.head()

data = df[['price_range','n_cores']].groupby(['price_range','n_cores']).size()
data

df[['price_range','n_cores']].groupby(['price_range','n_cores']).size().sort_values(0)

pandas.Series.sort_values()

parameters; 축 : 기본값이 0, 직접 정렬을 위한 축

DataFrame.sort_values와의 호환성을 위해 'index'값이 허용됨

df[['price_range','n_cores']].groupby(['price_range','n_cores']).size().sort_values(0).groupby(level=0).head()

level은 index의 깊이를 의미하며 가장 왼쪽에서부터 0에서부터 1씩 증가

answer = df[['price_range','n_cores']].groupby(['price_range','n_cores']).size().sort_values(0).groupby(level=0).tail(1)
answer

Question

price_range 값이 3인 그룹에서 상관관계가 2번째로 높은 두 컬럼과 그 상관계수를 구하여라

df.loc[df['price_range']==3].corr()

df.loc[df['price_range']==3].corr().unstack()

cordf = df.loc[df['price_range']==3].corr().unstack().sort_values(ascending=False)
cordf

cordf = df.loc[df['price_range']==3].corr().unstack().sort_values(ascending=False)
answer  = cordf.loc[cordf!=1].reset_index().iloc[1]
print(answer)

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

hyerimir_archive