코딩 일지

쿠다 4기/<혼공> 머신러닝& 딥러닝 2023. 8. 15. 11:42

생선마켓에 수산물을 공급하겠다는 곳이 너무 많아 훈련 데이터의 샘플을 어떻게 골라낼지에 대한 고민에 빠졌다. 1. 기존 훈련 데이터에 새로운 데이터를 추가해 매일 다시 훈련할까? 2. 새로운 데이터를 추가할 때 이전 데이터를 버려 훈련 데이터 크기를 유지할까? 3. 훈련한 모델을 버리지 않고 새로운 데이터에 대해서만 조금씩 더 훈련할 수는 없을까? 1,2 번의 방법은 여러 문제점들이 있고, 3번이 적합한 방법인 것 같다. 3번과 같은 훈련방식을 점진적 학습 또는 온라인 학습이라고 부른다. 대표적으로 확률적 경사 하강법이 있다. 확률적 경사 하강법 먼저 경사하강법에 대해 알아보자. 경사하강법은 가장 가파른 경사를 따라 원하는 지점에 도달하는 것이 목표이다. 단, 조금씩 내려와야 한다. 그 방법은 훈련세트에..

#Week 3 로지스틱 회귀

쿠다 4기/<혼공> 머신러닝& 딥러닝 2023. 8. 15. 10:31

구성품을 모른 채 구매하는 상품인 럭키백에는 7개의 생선이 들어간다. 럭키백에 들어간 생선의 크기, 무게 등이 주어졌을 때 각 생선이 럭키백에 있을 확률을 알려줄 것이다. 그러면 k-최근접 이웃 분류기로 샘플 주변에 가까운 n개 샘플의 클래스 비율을 확률이라고 해보자. k-최근접 이웃 분류기 우선 데이터를 불러왔다. head()를 통해 위의 5개 샘플만 나타내었다. unique()함수를 사용해 Species열에서 고유한 값을 추출하였다. 총 7개의 생선 종류가 있다. fish_input과 fish_target을 만들고, 훈련세트와 테스트 세트를 분리한다. 훈련세트와 테스트 세트를 표준화 전처리해주었다. 이제 k-최근접 이웃 분류기(k=3)로 훈련세트와 테스트 세트 점수를 확인한 결과 위와 같은 점수가 나..

Week#2 회귀 알고리즘과 모델 규제

쿠다 4기/<혼공> 머신러닝& 딥러닝 2023. 8. 8. 01:15

*본 내용은 한빛미디어의 을 참고하였습니다. k-최근접 이웃 회귀 앞선 포스팅에서는 k-최근접 이웃 모델에 대해 다루었다. 이번에는 '생선을 분류' 하는 것이 아니라 다른 특성들을 가지고 새로운 특성을 '예측'하는 '회귀' 알고리즘에 대해 알아볼 것이다. '회귀'는 두 변수 사이의 상관관계를 분석하는 방법이다. 농어의 길이만 가지고 무게를 잘 예측할 수 있을까? 농어의 길이, 높이, 두께라는 특성 중에 우선 길이만 가지고 무게를 예측해보기로 하였다. 앞선 포스팅에서 배운대로 모델을 학습시키겠다. 1) 데이터 준비 및 길이, 무게에 대한 산점도 시각화 2) 테스트 세트와 훈련세트로 분리 및 배열 변경 ** 이때, 사이킷런에서 사용할 훈련 세트는 2차원 배열이어야 하므로 numpy의 reshape()메소드를..

week #1 . 머신러닝의 개념과 데이터 다루기

쿠다 4기/<혼공> 머신러닝& 딥러닝 2023. 7. 31. 23:46

* 본 내용은 한빛미디어의 [혼자 공부하는 머신러닝 딥러닝]을 참고하였습니다. chap1. 나의 첫 인공지능 머신러닝은 규칙을 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 프로그램을 연구하는 분야이다. 딥러닝은 많은 머신러닝 알고리즘 중 인공 신경망을 기반으로 한 방법들을 통칭한 것이다. 머신러닝과 딥러닝은 오픈소스 라이브러리인 텐서플로, 파이토치 등을 이용하여 쉽게 접근할 수 있다. 개념만 들어서는 잘 이해가 안 될테니, 예시를 들어보자. chap2. 데이터 다루기 생선을 분류하는 프로그램을 어떻게 만들까? 우리의 목표는 도미와 빙어를 구분하는 것이다. 머신러닝 알고리즘은 크게 지도학습과 비지도학습으로 나뉜다. 지도학습은 훈련하기 위한 데이터와 정답이 필요하다. 정답이 있으니 알고리즘은 정..

ABOUT ME

코딩 일지 코딩 일지

티스토리툴바

ABOUT ME

전체 글

티스토리툴바