공부/프로젝트

[빅콘테스트] 1. 데이터 전처리

금새벽 2021. 8. 10. 00:00

빅콘테스트 설명회를 들어본 결과 확실히 수위 예측이 가장 데이터가 깔끔하고 목표도 간결하다.

그리고 전부 수치형이어서 수월하게 선형회귀 모델을 적용할 수 있을 것 같다.

 

데이터는 총 6개의 집단으로 나뉘는데, 유역평균강수, A/B/C/D 지역의 강우량, D/E 지역의 수위를 통해 댐으로의 총 유입량을 예측하면 된다. 예측해야 할 유입량은 하루가 아닌 시간 단위로까지 쪼개져있다. 

데이터 집단이 6개로 쪼개져있어서 이걸 어떻게 분리해야 하나 머리가 좀 아팠는데, 일단 구분된 컬럼으로 두는 것이 나을 것 같다고 판단했다. 

 

또 6개 집단을 어떻게 처리해야 최고의 효율이 나올지는 더 고민을 해봐야 할 것으로 보인다. 아직까지 어떤 기준으로 각 집단을 나눈건지는 잘 모르겠다. 문의를 해봐야하나... 현재로서는 우선 EDA를 통해 데이터를 좀 더 살펴봐야겠다. 그런데 얼른 모델 돌려서 예측해보고 싶다. 

 

우선 변수명이 너무 길고 지저분해서 재정의하고, train, test셋만 분리해두었다. 

# 컬럼명 재정의
data.columns = ('num','year','month','day','time','inflow(y)','average_1','rfA_1','rfB_1','rfC_1','rfD_1','wlE_1','wlD_1','average_2','rfA_2','rfB_2','rfC_2','rfD_2','wlE_2','wlD_2','average_3','rfA_3','rfB_3','rfC_3','rfD_3','wlE_3','wlD_3','average_4','rfA_4','rfB_4','rfC_4','rfD_4','wlE_4','wlD_4','average_5','rfA_5','rfB_5','rfC_5','rfD_5','wlE_5','wlD_5','average_6','rfA_6','rfB_6','rfC_6','rfD_6','wlE_6','wlD_6')
data = data.iloc[1:,:]
train = data.iloc[0:2891,:].copy() #트레인셋
test = data.iloc[2891:,:].copy() #테스트셋

 

이제 본격적인 EDA 시각화, 그리고 대충 예측까지 해보는게 목표다.

아무래도 미래에셋보다는 빅콘으로 마음이 기운것같져...???ㅎ

유사한 수치를 가지는 집단이 6개로 나뉘어 있는데 이걸 어떻게 잘 합쳐서 볼지 결정하는 것도 꽤 중요할 것 같다.

https://www.kaggle.com/munmun2004/house-prices-for-begginers#IV.-%EC%98%88%EC%B8%A1- 

이건 참고할 사이트.

 

[한글커널][House Prices]보스턴 집값 예측 for Begginers

Explore and run machine learning code with Kaggle Notebooks | Using data from House Prices - Advanced Regression Techniques

www.kaggle.com

 

'공부 > 프로젝트' 카테고리의 다른 글

[빅콘테스트] 3. LSTM 실습  (0) 2021.08.12
[빅콘테스트] 2. 자료조사  (0) 2021.08.10