데이터를 이곳저곳에서 모으다 보면 데이터를 분석 가능하게 만드는 것이 매우 중요한 작업이다. 이를 데이터 정제(Data Cleansing) 라고 하는데 이 작업을 제대로 해주지 않으면 의미있는 분석을 수행하기 불가능하다. 오타나 잘못된 데이터가 들어간 경우, 같은 데이터인데 이름이 다른 경우, 공백 등으로 같은 분류로 묶이지 않는 경우 등등 수도 없이 많은 경우의 수가 있기 때문에, 시간을 들여 꼼꼼이 작업하는 것이 중요하다. 정제를 수행하는 방법에는 여러 가지가 있으나, 도구를 쓰는 것이 편하다. 그 중 대표적인 오픈소스 툴 Open Refine (전 Google Refine) 을 소개하려 한다. 간단하지만 강력하고 쉽고 빠르게 데이터 정제를 도와준다.
openrefine.org 에 들어가면 다음과 같은 화면을 만난다.
구글이 이젠 적극적으로 지원하지 않고, 모든 것은 자발적 참여로 이뤄진다 한다. E-book이 있으니, 필요한 경우 구매하자.
Download에 들어가면 안정화 버전인 Google Refine 2.5를 받을 수 있다. 압축을 풀면 다음과 같은 화면을 만난다.
만약 자바가 설치되지 않았다면, 자바를 먼저 설치해야한다 (자동으로 안내). 특이점 몇 가지가 있는데, Chrome 브라우저에서만 돌아가는 관계로 꼭! Chrome을 기본 브라우저로 설정해야 한다. 하지만 Offline으로 실행되니 (127.0.0.1) 분석에 인터넷 연결은 필수 요소는 아니다. 또 in-memory로 모든 것을 메모리 안에서 처리하는 프로그램이어서 메모리를 충분히 확보해주어야 한다.
자세한 사용법은 다음 글에..