황수민 | Notion

Linear Regression

Cost 함수
hyper plain의 데이터를 보여주고, w랑 b 값은 무엇일까요?

코딩해서 w, b값 찾기

x_train = torch.FloatTensor([[1,2], [3,2], [3,7], [1,1], [1,0]])
y_train = torch.FloatTensor([[4], [8], [23], [1], [-2]])

w = torch.randn(2, 1)
b = torch.randn(1)

lr = 0.01

for epoch in range(3001):
  w.requires_grad_(True)
  b.requires_grad_(True)

  h = x_train @ w + b
  #x와 y가 1차원일때는 @ -> *로 바꾸기
  cost = ((h - y_train) ** 2).mean()

  cost.backward()

  with torch.no_grad():
    w = w - lr * w.grad
    b = b - lr * b.grad

    if epoch % 100 == 0:
      print(epoch, cost.item(), w.squeeze(), b)

Logistic Regression
- 이진 분류 문제를 위해 활용했다
- Sigmoid 함수 = 1 / 1 + e^(-x)
- 새로운 cost function → 바이너리 크로스 엔트로피 → 매끄러운 곡선이 나옴
- 각각 어떤 cost 함수가 사용되는지, 계산하는 방법도 알고 있기
- Cost 함수
Softmax Regression
- One hot encoding
- Softmax 함수 (본질적으로는 sigmoid 함수랑 비슷함)
- cost 함수 → 크로스 엔트로피
KNN
- knn: 주변에 가장 가까운 k개의 점
- k가 낮으면? → 불안정하고, k가 높으면? → 언더피팅
- n-fold cross validation
  - 데이터셋을 n개로 나누어서 순차적으로 학습시키는거
- 두 개의 데이터가 주어졌을 때 거리 계산해라 → 거리 공식
- Indexing 기법의 특징 정도는 기억해라
- 전체 데이터를 다 보는게 아니고, 검색 속도가 빨라진다.
- exact하게 knn을 찾는게 아니다, 대략적으로 찾음

Decision Trees

분류 문제, 회귀 문제 모두 사용 가능

데이터 주고, gini impurity가 몇인지, 그리고 어떤 애가 베스트인지

  def gini(self, y):
    n_samples = len(y)
    n_samples_per_class = np.bincount(y)
    gini = 1.0
    for i in range(len(n_samples_per_class)):
      gini -= (n_samples_per_class[i] / n_samples) ** 2
    return gini

numeric data / rank data
몇으로 나눴을 때 gini impurity가 몇이며 ~
데이터 전처리 조건 주고, 전처리 시행해라

age_mean = train["Age"].mean()
train["Age"] = train["Age"].fillna(age_mean)

features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
X = train[features]
X = pd.get_dummies(X)
y = train['Survived']

Random Forest
- 앙상블: Bagging
- Decision Trees + Bagging + Random Feature Selection의 흐름 알고 있어야 함
  - Bagging : random sampling + Decision Tree 생성 Random Feature Selection : Decision Tree에서 N개의 컬럼을 가져온 뒤, Impurity가 가장 낮은 Column 선택.
- 최종적인 판단 어떻게 하는가?
  - Voting: 투표
    - 코드 참고 np.array(~)
  - Averaging: 확률값을 평균하여 가장 높은 평균을 선택!
K means Clustering
- 분산 계산 할 줄 알아야 함
- 객관식이나 OX 문제로 나올 수 있음
  - 모델들이나 파라미터들이 어떠한 영향을 미치는지?
    - learning rate가 높을때는 어떻게 되고
      - 지나치게 높을 때: 발산
      - 낮을 때: 학습속도가 너무 느림
    - knn에서 k가 높으면 어떻게 되고
      - k가 낮으면: 오버피팅
      - k가 높으면: 언더피팅
    - k means clustering에서 k가 높으면 어떻게 되고
- 동작 원리 이해하고, 다음 centroid의 위치 계산은 어떻게 하는가?
  - 각 클러스터에 포함된 점들을 평균내어 다음 centroid를 계산
- k means 할 때, 항상 최적의 clustering을 찾는다고 가정하면, k 값이 증가하면 분산은 무조건 낮아지기만 한다.

소감

이번 공부를 통해 다양한 머신러닝 알고리즘의 핵심 개념과 원리를 이해할 수 있었습니다. 각 모델의 비용 함수와 파라미터 변화가 성능에 미치는 영향을 파악하며, 실제 코드로 구현해 보니 개념이 더 명확해졌습니다.