본문 바로가기

kaggle4

Kaggle 풀어보기 - DonorsChoose -3 이번 포스팅에서는 준비한 데이터를 모델에 넣어 예측해보자scikit learn 을 import 하고 scaling 을 해준다.scaling 은 "스케일링은 자료 집합에 적용되는 전처리 과정으로 모든 자료에 선형 변환을 적용하여 전체 자료의 분포를 평균 0, 분산 1이 되도록 만드는 과정" 이라고 한다.fit_transform 메서드를 이용해서 train_non_cat 와 test_non_cat 을 변환시켜준다1234from sklearn.preprocessing import StandardScalerstd = StandardScaler()train_non_cat_scaled = pd.DataFrame(std.fit_transform(train_non_cat),columns=train_non_cat.col.. 2018. 4. 15.
Kaggle 풀어보기 - DonorsChoose - 2 이어서 DonorsChoose 문제를 계속 풀어보자지난번, project_essay_1 과 3, project_essary_2 와 4를 각각 합쳤으므로,필요 없는 column 들을 제거해주자.123columns_to_remove = ["id","project_essay_1","project_essay_2","project_essay_3","project_essay_4"]train_joined.drop(columns_to_remove,inplace=True,axis=1)test_joined.drop(columns_to_remove,inplace=True,axis=1)Colored by Color Scriptercs그리고 모델에 넣기 전, 데이터들을 분류해준다.카테고리 중 선택이 가능한 categorical.. 2018. 4. 14.
Kaggle 풀어보기 - DonorsChoose - 1 이번에는 Donors Choose 라는 문제를 풀어보자.기부금 지원을 요청하는 수십만 건의 프로젝트 중에서 프로젝트와 교사, 학교에 대한 정보를 이용하여프로젝트가 승인될지 여부를 예측하는 문제이다.우선 필요한 라이브러리를 import 하고, 데이터들을 읽어온다.1234567import numpy as np import pandas as pd train = pd.read_csv("../input/train.csv")test = pd.read_csv("../input/test.csv")train_resource = pd.read_csv("../input/resources.csv")cstrain_resource 는 아래와 같이 생긴 데이터이다. id description quantity price 0 p233.. 2018. 4. 13.
Kaggle 풀어보기 - Bike Sharing Demand - 2 지난 포스팅에서 65줄짜리 간단한 코드를 공유했었는데, 우선 오늘은 이 코드를 제출해서 점수를 받는 방법을 공유해보고자 한다.개인적으로, 코드를 이해하는 것 못지않게, 캐글 플랫폼을 이해하고 사용하는 데에도 시간이 많이 걸려, 메모도 할 겸 블로그에 적어 공유해보고자 한다. 우선 문제 페이지로 이동하자 (https://www.kaggle.com/c/bike-sharing-demand) 아래와 같이, 메뉴 탭에서 Kernels 를 클릭하고 New Kernel 버튼을 클릭해준다. 오른쪽 Notebook 을 클릭하면 필요한 모듈들이 설치되어 코드만 입력하면 되는, 창이 뜬다. 아래 사진처럼, 화살표 부분에 지난 포스팅에 나온 코드를 입력하고, "Shift + Enter" 를 누른후에, 일정 시간이 지나 Com.. 2018. 3. 21.