~2019.08.01
주피터 파일이 깨졌다... 블로그에 글 안썼으면 복구 못했을듯 ㅎ..
1. store_id 의 amount을 한 달간 amount로 구함
for store in train_df['store_id']:
for date in train_df['transacted_date']:
for month in train_df['transacted_date'].unique():
이런식의 구성으로 3중 for문이 나올 것 같은데 괜찮을지?
2. 1번을 구한이후 어떻게 할 것인지?
대략 2000 store x 24 month가 나올 것 같은데 시각화를 어떻게 할 것인지.
기초적인 분석은 어떻게 할 것인지
에 대한 해결방안이 떠오르지 않음
3. 각 store amount에 대해서 region과 type_of_business를 어떻게 접목시킬 것인지?
현재 생각하는 접근방향은 '매출액'이 아닌 매출액의 기울기를 비교하고 싶음
1) 기울기가 높을 수록 2) 매출액이 작을수록 3) 꾸준히 성장할수록 으로 생각하고 있음
하지만 1) 2) 3) 을 어떻게 구해야할지 모르겠음.
region과 type_of_business의 편향를 최대한 줄이는 방향, 즉 평균 값으로 해도 괜찮은지?
혹은 각 region, business 마다 상승세를 갖는 trend도 비교해볼 필요성이 있다고 생각하는데..
생각할게 왜이리 많은지...?ㅠ 한다해도 접목하는건 더 고차원 문제인듯..ㅠ
4. 모델링을 어떻게 할 것인지
현재 생각해둔 방법은 전체 id별 24개월의 amount를 학습 시킨뒤
23개월의 데이터를 준 뒤에 24월 데이터를 예측하여 accuracy를 측정
한번 학습한 데이터는 반드시 다 맞추는지?
(그렇다면 train data는 330만개(50%) 정도로 할듯..?)
학습을 이것만으로도 충분한지? (accuracy는 어떻게 측정..?)
5. 시계열 분석을 요구하는데 시계열 분석이 거의 안들어가는 것 같은데 괜찮을지..