#아래 코드는 Kaggle Grandmaster Rob Mulla 의 모델링을 기반으로 재구성하였습니다.
대회설명: M5는 월마트에서 제공하는 계층적 판매 데이터를 사용하여, 향후 28 일 동안의 일일 판매를 예측하고 분포를 추정하는 것이 목표이다. 데이터에는 가격, 프로모션, 요일 및 특별 이벤트와 같은 설명 변수가 포함된다.
데이터셋: calendar.csv - 제품 판매 날짜에 대한 정보를 포함. sales_train_validation.csv - 제품 및 매장 별 일일 판매량 기록 데이터 포함 [d_1-d_1913] sample_submission.csv - 제출 양식. sell_prices.csv - 상점 및 날짜별로 판매 된 제품의 가격에 대한 정보를 포함. sales_train_evaluation.cs - 제품 판매 포함 [d_1-d_1941]
1 2 3 4 5 6 7 8 9 10 11 12 13
import os import pandas as pd import numpy as np import plotly_express as px import plotly.graph_objects as go from plotly.subplots import make_subplots import matplotlib.pyplot as plt import seaborn as sns import gc import warnings warnings.filterwarnings('ignore') from lightgbm import LGBMRegressor import joblib
#메모리 다운 후의 메모리 사용량 체크. sales_ad = np.round(sales.memory_usage().sum()/(1024*1024),1) calendar_ad = np.round(calendar.memory_usage().sum()/(1024*1024),1) prices_ad = np.round(prices.memory_usage().sum()/(1024*1024),1)
1 2 3 4 5 6 7 8 9 10 11 12
#다운 캐스팅이 DataFrame의 메모리 사용량에 얼마나 많은 영향을 미쳤는지 시각화.1/4 미만으로 줄일 수 있음. dic = {'DataFrame':['sales','calendar','prices'], 'Before downcasting':[sales_bd,calendar_bd,prices_bd], 'After downcasting':[sales_ad,calendar_ad,prices_ad]}
walmart 에서 제공하는 세일즈 데이터는, wrt, 즉 with respect to [ cols ] State: CA, WI, TX (3) Store: CA_1, CA_2, TX_1, WI_1, ... (10) Category: FOOD, HOBBIES, HOUSEHOLD (3) Department:FOOD_1,2,3 , HOBBIES_1,2, ... (7) item_id:: each unique id # (3,049)
1 2 3 4 5 6 7 8 9 10 11
#plotly_express 에서 제공하는 treemap 을 활용해서, 각 제품 id 를 count var로 잡고, data col 들의 관계를 directory 형태로 시각화.
group = sales.groupby(['state_id','store_id','cat_id','dept_id'],as_index=False)['item_id'].count().dropna() group['USA'] = 'United States of America' group.rename(columns={'state_id':'State','store_id':'Store','cat_id':'Category','dept_id':'Department','item_id':'Count'},inplace=True) fig = px.treemap(group, path=['USA', 'State', 'Store', 'Category', 'Department'], values='Count', color='Count', color_continuous_scale= px.colors.sequential.Sunset, title='Walmart: Distribution of items') fig.update_layout(template='seaborn') fig.show()
4. Melting the data
#4.1 Convert from wide to long format
1
머신러닝 포맷에 적합시키기 위해서는 와이드 형식의 판매 데이터 프레임을 긴 형식으로 변환이 필요하다. sales 데이터셋의 row 는 30490(== # of items), 데이터셋을 melt하게되면은 sales, calendar 30490 x 1969 = 60034810 개의 row 를 가지게 된다.
#2 df.d = df['d'].apply(lambda x: x.split('_')[1]).astype(np.int16) cols = df.dtypes.index.tolist() types = df.dtypes.values.tolist() for i,type in enumerate(types): if type.name == 'category': df[cols[i]] = df[cols[i]].cat.codes #3 df.drop('date',axis=1,inplace=True)
1
import time
1
#5.2 introduce lags
1 2 3 4
#lag col들을 추가 lags = [1,2,3,6,12,24,36] for lag in lags: df['sold_lag_'+str(lag)] = df.groupby(['id', 'item_id', 'dept_id', 'cat_id', 'store_id', 'state_id'],as_index=False)['sold'].shift(lag).astype(np.float16)
%time data = pd.read_pickle('data.pkl') # FE후에 pickle 형태로 저장시켰던 데이터를 로드. valid = data[(data['d']>=1914) & (data['d']<1942)][['id','d','sold']] # 1914 ~ 1942 validation period test = data[data['d']>=1942][['id','d','sold']] # d >= 1942 test and eval period eval_preds = test['sold'] # eval = test valid_preds = valid['sold'] # val = val
actual = False if actual == False: #대회 종료 1달 전에, validation data 를 추가로 제공하기 때문에, 그 전에 training data 로만 생성한 valid 를 쓸지, 아니면 추가 제공 valid 를 쓸지 결정 validation = sales[['id']+['d_' + str(i) for i in range(1914,1942)]] validation['id']=pd.read_csv('C:\\Eric\\Projects\\Kaggle_M5\Dataset\\sales_train_validation.csv').id validation.columns=['id'] + ['F' + str(i + 1) for i in range(28)] else: valid['sold'] = valid_preds validation = valid[['id','d','sold']] validation = pd.pivot(validation, index='id', columns='d', values='sold').reset_index() validation.columns=['id'] + ['F' + str(i + 1) for i in range(28)] validation.id = validation.id.map(d_id).str.replace('evaluation','validation')
#predictio data 생성 test['sold'] = eval_preds evaluation = test[['id','d','sold']] evaluation = pd.pivot(evaluation, index='id', columns='d', values='sold').reset_index() evaluation.columns=['id'] + ['F' + str(i + 1) for i in range(28)] evaluation.id = evaluation.id.map(d_id)
#Submission 파일 생성 submit = pd.concat([validation,evaluation]).reset_index(drop=True) submit.to_csv('M5_submission.csv',index=False)