기타/엑셀 기반의 데이터 분석

05.데이터 정리(Cleansing)

moving 2019. 6. 13. 14:16
728x90

▶ 데이터 수집 관련

  사적 데이터 공공 데이터
내부 데이터

- 기관의 정보 보호 정책

- 개인정보 보호법

(해당없음)
외부 데이터

- 개인정보 보호법

- 저작권 보호법

- 개인정보 보호법

 외부 데이터 가져오기

 3가지 다운로드 파일 형식

 텍스트 나누기(Text Parsing)

데이터 -> 텍스트 나누기 
구분 기호로 분리
셀 삽입 -> 텍스트 나누기 

 매크로(Macro)

- 작업의 순서를 기록한 것

- 반복되는 작업인 경우 편리함 (단축키)

- 오피스 프로그래밍 언어인 VBA(Visual Basic for Applications)의 일부

 텍스트 앞과 뒤의 공백 제거

- TRIM(text)

 빈 셀 검색

- 빈 셀 검색의 3가지 이유

1. 불완전한 데이터 (입력 단계에서 유효성 확인)

2. 행/열의 전체 선택 어려움 (Ctrl + Shift + →)

3. COUNT/COUNTA 함수 사용 어려움

 빈 셀 검색 시연

홈 -> 착기 및 입력 -> 이동 옵션 -> 빈 셀
F7에 '-' 입력 후 Ctrl + Enter (숫자 셀이라면 0 입력)

 텍스트 대체하기 

1. 찾기 및 바꾸기 

열 선택 -> 찾기 및 바꾸기

2. SUBSTITUTE 함수

   =SUBSTITUTE(text, old_text, new_text, [instance_num])

 중복된 행 제거 

- 중복된 셀 제거

- 고유한 값의 개수와 리스트 추출에도 유용

 데이터 유효성 검사

데이터 유효성 검사
데이터 유효성 검사 -> 잘못된 데이터