# 데이터 처리 기준 마련 - 전체 데이터 중 얼마나 포함하고 버릴지 기준이 필요함. 예) 2시그마: 95.4% - 출현 빈도가 적은 다수의 데이터를 포함하는 것은 비효율적. - randkid의 목표는 모든 경우의 수를 생성하는 것이 아닌 그럴싸한 데이터를 생성하는 것임. - 각 항목별 전체의 몇%가 보존되었는지 기록해야 함.