카테고리 없음

~ 2019-07-29

mikenel 2019. 7. 30. 00:29

각종 모듈 import 및 dataset 확인
필요한 열만 df1로 가져왔고 '지역' 부분을 확인
dropna -> NaN 데이터를 처리('type_of_business' 열만), test dataset을 확인함으로써 방향 계획
열 들의 객체 타입 확인
type_of_business 열에 대한 amount를 봄

type_of_business의 각 인덱스들 (ex 기타 미용업, 한식 음식업점....)들의 amount를 계산하여 시각화를 준비

 

데이터 시각화를 한 모습

 

같은 방법으로!

float -> int 형변환 해줌으로써 가독성을 높혔다.

 

시각화 한 모습

 

region부터는 복붙을 하였고 코드가 2번 사용되어서 함수를 만들려고했는데...

 

이미 메소드가 있었다 ㅎㅎ..

저거 짜는데 하루넘게 투자했는데 그래도 이 메소드를 직접 구현해봤다는 것에 의의를..ㅠ

 

<앞으로 할 것들>

결국 문제는 2년치 dataset을 통해 앞으로 3개월 dataset을 예측하는 것이다.

그렇기 위해서는 내가 생각하지 못했던

store_id의 transacted_date로 부터의 amount를 분석해야할 필요성이 있었다.

이를 위해서 나는 시계열 분석(Time Series)를 공부해야 할 것이고,

이미 분석해둔 feature들인 region과 type_of_business를 어떻게 접목을 시켜야할 지 생각해봐야겠다..

 

<백업>

for to_date in train_df['transacted_date']:
    to_date = datetime.datetime.fromtimestamp(to_date)\n",
    to_date = str(to_date)[:7]\n",
    to_date = datetime.datetime.strptime(str(to_date), '%Y-%m').date()\n"
 train_df[idx][] += train_df['amount'][amount]