본문 바로가기

캐글7

Kaggle 풀어보기 - DonorsChoose -3 이번 포스팅에서는 준비한 데이터를 모델에 넣어 예측해보자scikit learn 을 import 하고 scaling 을 해준다.scaling 은 "스케일링은 자료 집합에 적용되는 전처리 과정으로 모든 자료에 선형 변환을 적용하여 전체 자료의 분포를 평균 0, 분산 1이 되도록 만드는 과정" 이라고 한다.fit_transform 메서드를 이용해서 train_non_cat 와 test_non_cat 을 변환시켜준다1234from sklearn.preprocessing import StandardScalerstd = StandardScaler()train_non_cat_scaled = pd.DataFrame(std.fit_transform(train_non_cat),columns=train_non_cat.col.. 2018. 4. 15.
Kaggle 풀어보기 - DonorsChoose - 2 이어서 DonorsChoose 문제를 계속 풀어보자지난번, project_essay_1 과 3, project_essary_2 와 4를 각각 합쳤으므로,필요 없는 column 들을 제거해주자.123columns_to_remove = ["id","project_essay_1","project_essay_2","project_essay_3","project_essay_4"]train_joined.drop(columns_to_remove,inplace=True,axis=1)test_joined.drop(columns_to_remove,inplace=True,axis=1)Colored by Color Scriptercs그리고 모델에 넣기 전, 데이터들을 분류해준다.카테고리 중 선택이 가능한 categorical.. 2018. 4. 14.
Kaggle 풀어보기 - DonorsChoose - 1 이번에는 Donors Choose 라는 문제를 풀어보자.기부금 지원을 요청하는 수십만 건의 프로젝트 중에서 프로젝트와 교사, 학교에 대한 정보를 이용하여프로젝트가 승인될지 여부를 예측하는 문제이다.우선 필요한 라이브러리를 import 하고, 데이터들을 읽어온다.1234567import numpy as np import pandas as pd train = pd.read_csv("../input/train.csv")test = pd.read_csv("../input/test.csv")train_resource = pd.read_csv("../input/resources.csv")cstrain_resource 는 아래와 같이 생긴 데이터이다. id description quantity price 0 p233.. 2018. 4. 13.
Kaggle 풀어보기 - Bike Sharing Demand - 4 지난 포스팅에서 코드를 분석해봤다.예측 정확도를 높이려면 "정제된 데이터" 로 "올바른 모델" 을 사용하면 되는데, 지난 포스팅에서는"주어진 데이터" 에 "Random forest" 모델을 사용하여 예측하였다.데이터를 정제하기에 앞서, 어떤 데이터가 어떻게 사용되는지 보자.우선 datetime 을 파싱하여 연, 월, 일, 시, 분, 초 요일 로 변경해준다. 1234567train["year"] = train["datetime"].dt.yeartrain["month"] = train["datetime"].dt.monthtrain["day"] = train["datetime"].dt.daytrain["hour"] = train["datetime"].dt.hourtrain["minute"] = train["d.. 2018. 4. 1.