User:Soongki/프로젝트

= 훈련용, 검증용, 테스트 데이터셋 = 머신 러닝에서 일반적인 작업은 데이터를 학습하고 예측할 수 있는 알고리즘을 연구하고 구축하는 것입니다. 이러한 알고리즘은 입력 데이터로부터 수학적 모델을 구축하여 데이터에 기반한 예측 또는 의사 결정을 내리는 방식으로 작동합니다. 모델을 구축하는 데 사용되는 입력 데이터는 일반적으로 여러 데이터 집합으로 나뉩니다. 특히 모델 생성의 여러 단계에서는 일반적으로 학습, 검증, 테스트 세트의 세 가지 데이터 세트가 사용됩니다.

모델은 처음에 모델의 매개변수(예: 인공 신경망의 뉴런 간 연결 가중치)를 맞추는 데 사용되는 예제 집합인 훈련 데이터 세트에 맞춰집니다. 모델(예: 나이브 베이즈 분류기)은 경사 하강 또는 확률적 경사 하강과 같은 최적화 방법을 사용하여 지도 학습 방법을 사용하여 훈련 데이터 세트에 대해 훈련됩니다. 실제로 훈련 데이터 세트는 입력 벡터(또는 스칼라)와 해당 출력 벡터(또는 스칼라)의 쌍으로 구성되는 경우가 많으며, 여기서 답안 키는 일반적으로 타깃(또는 레이블)으로 표시됩니다. 현재 모델은 학습 데이터 세트로 실행되어 결과를 생성한 다음 학습 데이터 세트의 각 입력 벡터에 대해 타겟과 비교합니다. 비교 결과와 사용 중인 특정 학습 알고리즘에 따라 모델의 파라미터가 조정됩니다. 모델 피팅에는 변수 선택과 매개변수 추정이 모두 포함될 수 있습니다.

이어서, 적합 모델은 검증 데이터 집합이라고 하는 두 번째 데이터 집합에서 관측값에 대한 응답을 예측하는 데 사용됩니다. 검증 데이터 세트는 모델의 하이퍼파라미터(예: 신경망의 숨겨진 단위 수, 레이어 및 레이어 너비)를 조정하면서 훈련 데이터 세트에 대한 모델 적합도를 편견 없이 평가합니다. 유효성 검사 데이터 세트는 조기 중지(유효성 검사 데이터 세트의 오류가 증가하면 학습 데이터 세트에 과도하게 적합하다는 신호이므로 학습을 중지)를 통해 정규화에 사용할 수 있습니다. 이 간단한 절차는 실제로는 훈련 중에 검증 데이터 세트의 오차가 변동하여 여러 로컬 최소값을 생성할 수 있다는 사실로 인해 복잡합니다. 이러한 복잡성 때문에 과적합이 실제로 시작된 시점을 결정하기 위한 많은 임시 규칙이 만들어졌습니다.

마지막으로 테스트 데이터 세트는 학습 데이터 세트에 대한 최종 모델 적합도의 편향되지 않은 평가를 제공하는 데 사용되는 데이터 세트입니다. 테스트 데이터 세트의 데이터가 학습에 사용된 적이 없는 경우(예: 교차 검증), 테스트 데이터 세트를 홀드아웃 데이터 세트라고도 합니다. 일부 문헌에서는 '테스트 세트' 대신 '검증 세트'라는 용어를 사용하기도 합니다(예: 원래 데이터 세트가 두 개의 하위 집합으로만 분할된 경우, 테스트 세트를 검증 세트라고 할 수 있음).

학습, 테스트 및 검증 세트에서 데이터 세트 분할의 크기와 전략을 결정하는 것은 문제와 사용 가능한 데이터에 따라 크게 달라집니다.

훈련용(학습용) 데이터셋
훈련 데이터 세트는 학습 과정에서 사용되는 예제 데이터 세트이며, 예를 들어 분류기의 매개변수(예: 가중치)를 맞추는 데 사용됩니다.

분류 작업의 경우, 지도 학습 알고리즘은 학습 데이터 세트를 살펴보고 좋은 예측 모델을 생성할 수 있는 최적의 변수 조합을 결정하거나 학습합니다. 목표는 새로운 미지의 데이터에 잘 일반화되는 훈련된(적합) 모델을 생성하는 것입니다. 적합 모델은 새로운 데이터를 분류하는 모델의 정확도를 추정하기 위해 보류된 데이터 세트(검증 및 테스트 데이터 세트)의 "새로운" 예시를 사용하여 평가됩니다. 과적합과 같은 문제의 위험을 줄이려면 유효성 검사 및 테스트 데이터 세트의 예제를 모델 훈련에 사용해서는 안 됩니다.

훈련 데이터에서 경험적 관계를 검색하는 대부분의 접근 방식은 데이터를 과적합하는 경향이 있으며, 이는 훈련 데이터에서 일반적으로 유지되지 않는 명백한 관계를 식별하고 활용할 수 있음을 의미합니다.

검증용 데이터셋
검증 데이터 세트는 분류기의 하이퍼파라미터(즉, 아키텍처)를 조정하는 데 사용되는 예제 데이터 세트입니다. 개발 세트 또는 "개발 세트"라고도 합니다. 인공 신경망의 하이퍼파라미터의 예로는 각 계층의 숨겨진 유닛 수가 있습니다. 테스트 세트(아래에 언급됨)와 마찬가지로 이 데이터 세트는 훈련 데이터 세트와 동일한 확률 분포를 따라야 합니다.

과적합을 피하기 위해 분류 파라미터를 조정해야 하는 경우 학습 및 테스트 데이터 세트 외에 검증 데이터 세트가 필요합니다. 예를 들어, 문제에 가장 적합한 분류기를 찾으려면 훈련 데이터 세트를 사용하여 여러 후보 분류기를 훈련하고, 검증 데이터 세트를 사용하여 성능을 비교하고 어떤 분류기를 사용할지 결정하며, 마지막으로 테스트 데이터 세트를 사용하여 정확도, 감도, 특이도, F값 등과 같은 성능 특성을 얻습니다. 검증 데이터 세트는 테스트에 사용되는 훈련 데이터이지만 저수준 훈련의 일부도 아니고 최종 테스트의 일부도 아닌 하이브리드 기능을 합니다.

테스트 데이터셋
테스트 데이터 세트는 학습 데이터 세트와 독립적이지만 학습 데이터 세트와 동일한 확률 분포를 따르는 데이터 세트입니다. 학습 데이터 세트에 적합한 모델이 테스트 데이터 세트에도 잘 맞는다면 최소한의 과적합이 발생한 것입니다(아래 그림 참조). 테스트 데이터 세트와 반대로 학습 데이터 세트가 더 잘 맞으면 일반적으로 과적합을 나타냅니다.

따라서 테스트 세트는 완전히 지정된 분류기의 성능(즉, 일반화)을 평가하는 데만 사용되는 예제 집합입니다. 이를 위해 최종 모델은 테스트 세트에 있는 예제의 분류를 예측하는 데 사용됩니다. 이러한 예측을 예제의 실제 분류와 비교하여 모델의 정확도를 평가합니다.

유효성 검사 데이터 세트와 테스트 데이터 세트가 모두 사용되는 시나리오에서는 일반적으로 테스트 데이터 세트가 유효성 검사 프로세스 중에 선택된 최종 모델을 평가하는 데 사용됩니다. 원본 데이터 세트가 두 개의 하위 집합(훈련 및 테스트 데이터 세트)으로 분할되는 경우, 테스트 데이터 세트는 홀드아웃 방법과 같이 모델을 한 번만 평가할 수 있습니다. 일부 출처에서는 이러한 방법을 권장하지 않습니다. 그러나 교차 검증과 같은 방법을 사용할 때는 모델 훈련과 테스트를 반복한 후 결과를 평균화하여 편향과 변동성을 줄일 수 있으므로 두 개의 파티션으로도 충분하고 효과적일 수 있습니다.

교차 검증 (Cross-validation)
안정적인 결과를 얻고 모든 가치 있는 데이터를 학습에 사용하기 위해 데이터 세트를 여러 개의 학습 데이터 세트와 검증 데이터 세트로 반복적으로 분할할 수 있습니다. 이를 교차 검증이라고 합니다. 모델의 성능을 확인하기 위해 일반적으로 교차 검증을 통해 확보한 추가 테스트 데이터 세트가 사용됩니다.

같이 보기

 * 통계적 분류