본문 바로가기

Python/머신러닝-딥러닝5

(머신러닝)비지도학습_PCA를 활용한 이상치탐지 목차 이상치 탐지는 비지도 학습에 해당하며 보통과 많이 다른 샘플을 감지하는 것을 의미한다. 그렇다면, PCA를 사용하여 Kaggle에 있는 신용카드 데이터셋의 이상 거래를 예측해보면서 PCA를 활용한 이상치 탐지에 대한 아이디어를 이해해보자. https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud Credit Card Fraud Detection Anonymized credit card transactions labeled as fraudulent or genuine www.kaggle.com 1. Data Load, Data Understanding # 1. Data Load data = pd.read_csv('../data/creditcard.csv') .. 2023. 6. 11.

(머신러닝)타이타닉 데이터 셋으로 보는 Classification(분류)_4. 나이브 베이즈 목차 0. 나이브베이즈 나이브 베이즈란 데이터가 각 클래스에 속할 특징 확률을 계산하는 조건부 확률 기반의 분류 방법으로, 나이브 베이즈에서의 나이브는 모든 변수(feature)들이 동등하다는 것을 의미하며, 베이즈는 입력 특징(입력변수)이 클래스 전체의 확률 분포 대비 특정 클래스에 속할 확률을 베이즈 정리를 기반으로 계산한다는 것을 뜻한다. 쉽게 설명하자면, 사건 B가 주어졌을 때 사건 A가 일어날 확률인 P(A|B)라는 조건부 확률을 사용한 분류기인 것이다. 결국 나이브 베이즈는 베이즈 정리를 기반으로 주어진 Input에 대한 Output의 확률을 예측하는 것인데, 베이즈 정리는 다음과 같다. 이러한 베이즈 정리를 기반으로 만든 나이브 베이즈 알고리즘의 수식은 다음과 같은데 Input인 x 들이 O.. 2023. 6. 6.

(머신러닝)타이타닉 데이터 셋으로 보는 Classification(분류)_3. KNN (K-최근접 이웃) 목차 0. KNN K-Nearest Neighbor(KNN)란 가장 모여있는 어떤 이웃과 가까이 근접해있는지를 통해 라벨(정답)을 분류하는 방식으로, Classification(분류)에 사용되는 간단한 supervised machine learning(지도학습)이다. 간단한 그림으로 설명하자면, KNN은 '새로 들어온 ★이 ■ 그룹의 데이터와 가장 가까우니 ★은 ■ 그룹이다.' 라고 분류하는 방법으로 여기에서의 K는 몇 번째로 가까운 데이터까지 살펴볼 것인가를 정한 숫자이다. 1. Modeling 1-1. KNN_3 1. feature 6 feature_6 = ['Age', 'Fare', 'Parch', 'Pclass', 'Sex_num', 'SibSp'] X_train = train_data[featu.. 2023. 6. 6.

(머신러닝)타이타닉 데이터 셋으로 보는 Classification(분류)_2. 로지스틱 회귀(Logistic Regression) 목차 0. 로지스틱 회귀 로지스틱 회귀분석은 타겟변수가 범주형(0 or 1)인 경우 사용하는 회귀분석으로, 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘이다. 예를 들어, 스팸 메일 분류기에 경우 어떤 메일을 받았을 때 그것이 스팸일 확률이 0.5 이상이면 스팸으로 분류하고, 확률이 0.5보다 작은 경우는 스팸이 아니다 라고 분류하는 것이다. 로지스틱 회귀에서는 확률을 0에서 1사이로 커브 모양으로 나타내기위해 Sigmoid 함수를 사용한다. Sigmoid 식에서의 Z는 다음과 같으며 이 식은 선형회귀의 식과 동일함을 알 수 있다. z = w0 + w1 ∗ x (w0: intercept, w1: s.. 2023. 6. 6.

(머신러닝)타이타닉 데이터 셋으로 보는 Classification(분류)_1. Rule Based 목차 0. Overview Kaggle에 있는 Titanic Dataset으로 머신러닝의 기초인 Classification에 대해 알아보고자 한다. Classification 이란 데이터들을 카테고리로 나눠서 어디에 속하는지 분류하는 것이다. 이 데이터셋에서의 타겟변수(예측변수)는 Survived로, 탑승자의 생존 여부를 0(생존)과 1(생존X)로 분류하기 때문에 Classification을 사용하여 탑승자의 생존 여부를 예측해야 한다. https://www.kaggle.com/competitions/titanic Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 1. Bussiness Understanding - 생존자 예측 2. Dat.. 2023. 6. 6.

이전 1 다음

티스토리툴바