본문 바로가기

python·Data Science

(7)
[Kaggle] 범주형 데이터 이진분류|Categorical Feature Encoding Challenge | logistic regressi 캐글 노트북 https://www.kaggle.com/code/rickyhouse/categorical-feature-encoding-hyperparmeter-optimiz경진대회 이해범주형 피처 23개를 활용해 해당 데이터가 타깃값 1에 속할 확률을 예측하는 것이 목표 데이터 둘러 보기import pandas as pd data_path = '/kaggle/input/cat-in-the-dat/' train = pd.read_csv(data_path + 'train.csv', index_col = 'id') test = pd.read_csv(data_path + 'test.csv', index_col = 'id') submission = pd.read_csv(data_path + 'sample_subm..
선형회귀 모델 - Linear Regression, Ridge, Lasso 선형회귀(Linear Regression Model) 머신러닝의 목적은 데이터의 알려진 속성들을 학습하여 예측 모델을 만드는데 있다. 이때 찾아 낼 수 있는 가장 직관적이고 간단한 모델은 선(line)이다. 선형회귀란 데이터를 가장 잘 대변하는 최적의 선을 찾은 과정이다. 아래 그래프에서 붉은색 점이 데이터이다. 이 데이터를 가장 잘 표현하는 선이 파란색 직선이며, 이는 일차 함수(y=ax+b) 형태로 나타난다. 선형회귀 직선은 x와 y의 관계를 요약해서 설명해준다고 볼 수 있다. 이 때 x를 독립 변수라고 하며, x에 의해 영향을 받는 값인 y를 종속 변수라고 한다. 선형 회귀는 한개 이상의 독립 변수 x와 y의 관계를 모델링 하는데, 만약 독립 변수 x가 하나라면 단순 선형 회귀, 2개 이상이면 다중..
[Kaggle] 자전거 대여 수요 예측|Bike Sharing Demand | RandomForest 캐글 [자거거 수요량 예측] 경진대회 도전!!! 캐글 노트북은 아래 링크에서 확인 할 수 있습니다. https://www.kaggle.com/code/rickyhouse/bike-sharing-demand-randomforest [Bike Sharing Demand | RandomForest Explore and run machine learning code with Kaggle Notebooks | Using data from Bike Sharing Demand www.kaggle.com](https://www.kaggle.com/code/rickyhouse/bike-sharing-demand-randomforest) EDA(탐색적 데이터 분석) Description datetime - hourly d..
[캐글 메달리스트가 알려주는 캐글 노하우] Instant gratification Instant gratification 대회는 2019년 6월 캐글에서 자체적으로 주체. Code Competition 방식을 적용하기 앞서 대회가 원활하게 진행되는지 테스트하고, 참가자들의 피드백을 받기 위해 만들어진 대회 이 대회의 평가 지표는 AUC(Area Under the Curve). ROC 곡선의 밑 면적을 의미. EDA(Exploratory Data Analysis) 다양한 각도에서 데이터를 관찰하고 이해하는 과정 데이터가 어떤 형식으로 이루어져있는지 확인 정답 값의 비율을 확인. 정답의 불균형 여부 확인해 추후 이 점을 고려해 모델 구성 정답 값에 누출이 없는지 확인. NULL 값을 확인. NULL 값을 무조건 채우기 보다는 NULL이 왜 생성됐고, 어떤 의미인지 먼저 파악하는 것이 좋음..
[머신러닝 딥러닝 문제해결 전략] 하이파파라미터 최적화 하이퍼파라미터는 사용자가 직접 설정해야 하는 값. 데이터 분석에 사용하는 모델에 최적의 하이퍼파라미터를 전달해야 성능이 좋아짐. 모델이 좋은 성능을 내도록 최적의 하이퍼파라미터를 찾는 작업이 하이퍼파라미터 최적화임. 그리드서치, 랜덤서치, 베이지안 최적화가 대표적인 방법임. 그리드서치(Grid Search) 가장 기본적인 하이퍼파라미터 최적화 기법. 주어진 하이퍼파라미터를 모두 순회하며 가장 좋은 성능을 내는 값을 찾는다. 그래서 시간이 오래 걸린다는 단점이 있다. 공식문서 : https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html 랜덤서치(Random Search) 하이퍼파라미터를 무작위로 탐색..
python - 리스트 리스트란 일정한 순서에 따라 나열된 일련이 요소다. 인덱스를 통해 개별 요소에 접근하거나 리스트 전체를 순회 할 수 있다. 리스트의 생성 bike = ['trek', 'redline', 'giant'] 리스트의 첫 번째 요소 first_bike = bikes[0] 리스트의 마지막 요소 last_bike = bike[-1] 리스트 순회하기 for bike in bikes: print(bike) 리스트에 요소 추가 bike = [ ] bike.append('trek') bike.append('redline') bike.append('giant') 숫자 리스트 생성 squares = [ ] for i in range(1, 11): squares.append(x**2) 리스트 내포 squares = [x**2 ..
python - 변수와 문자열 변수는 값에 붙이는 이름표다. 문자열이란 큰따음표 또는 작은따음표로 둘러싸여 있는 일련의 문자다. 파이썬은 f-문자열을 통해 문자열 안에 변수를 사용해 메세지를 동적으로 만들 수 있다. Hello world! print("Hello world!") 변수와 Hello World msg = "Hello world!" print(msg) f-string(문자열 안의 변수) first_name = 'albert' last_name = 'einstein' full_name = f"{ first_name} { last_name}" print( full_name)