카테고리 없음

[ADsP] 데이터 마이닝

Sir교수 2023. 2. 4. 22:43
728x90

▶ 데이터 마이닝

- 데이터 마이닝은 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법

▶ 통계분석과의 차이점

- 통계분석은 가설이나 가정에 따른 분석이나 검증을 한다.

- 데이터 마이닝은 다양한 알고리즘을 통해 데이터베이스의 데이터로부터 의미있는 정보를 찾아내는 방법을 통칭한다. 

▶ 데이터 마이닝의 분석 방법

 

데이터 마이닝 추진단계

1. 목적설정

2. 데이터 준비

3. 가공

4. 기법 적용

5. 검증

데이터 마이닝을 위한 데이터 분할 

- 데이터 분할 

1) Training Data, 50% :훈련용 데이터라고 부르며 데이터 마이닝 모델을 만드는데 활용

2) Validation Data, 30%: 구축된 모형의 과대추정 또는 과소추정을 미세 조정을 하는데 활용

3) Test Data, 20%: 테스트 데이터나 과거 데이터를 활용하여 모델의 성능을 검증하는데 활용

4) 데이터의 양이 충분하지 않거나 입력 변수에 대한 설명이 충분한 경우

 

홀드아웃(Hold-Out)

- 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법

- 주로 학습용과 시험용 데이터로 분리하여 사용

 

k-fold 교차분석(Cross-Validation)방법

- 주어진 데이터를 k개의 하부 집단으로 구분

- k-1 개의 집단을 학습용으로 나머지는 하부집단으로 검증용으로 설정하여 학습

728x90