본문 바로가기

IT/Big Data

Big data

요즘 빅데이터가 화두이다.
오라클이 최근 빅데이터에 관한 백서(white paper)를 발표했다.
 
Big Data ?
과거에는 office documents 및 transactional data가 주축이었고 이런 데이터들이 대부분 관계형 데이터베이스에 저장이 되었다. 그런데 지금은 non-traditional, less structured data가 점점 부각이 되어지고 있으며 여기에서부터 의미있는 정보를 캐 낼려고 하고 있다. 대표적인 예료 웹로그, 소셜미디어, 이메일, 센서, 사진등이 그 것이다.  이런 정보의 양이 엄청나다는 것은 다 알고 있는데, 최근 가격 경쟁력이 있어진 스토리지 및 컴퓨팅파워로 인해, 이런 주장이 더 실현가능해 지고 있기도 하다. 

백서에서는 Big Data를 아래와 같이 정의한다.
- traditional enterprise data :  CRM 시스템의 고객 정보, transactional ERP data, web store transaction, general ledger data
- 기계 생성/센서 데이터(machine-generated/sensor data) : call detail records(CDR), weblogs, smart meters, manufacturing sensors, equipment logs trading system data
- 그리고, social data - 커스터머 피드백 스트림, 마이크로 블로깅 사이트(트위터), 소셜 미디어 플랫폼(페이스북)

그래. 그렇게 정의했다고 치자. 근데 왜 의미가 있느냐 ?

맥킨지는 이런 데이터가 매년 40% 씩 증가한다고 추정하고 있다.  2009년에서 2020년 사이에 대략 44배 증가할거라고 한다. (도대체 어떻게 이런 계산을 해내는 거야?)

백서는 Big Data에 4가지 특징(4V)이 있다고 한다.
 1) 규모 (Volume) : machine-generated data는 그 양이 어마어마하다. 일례로 single jet engine이 30분동안 생성해 내는 데이터가 무려 10TB 정도라고 한다. 정유산업에 쓰이는  smart meter, 중공업 장비들도 비슷한 양의 데이터를 생성해낸다고 한다.
 2) 속도 (Velocity) : 트위터가 겨우 140 characters를 허용하지만, 지구촌사람들이 총 생산해 내는 양은 하루동안 8TB에 달한다
 3) 다양성(Variety) : traditional data format 은 잘 기술되어 있고, 천천히 변화하는 반면, big data는 그 포맷이 예측하기 어려울 정도로 다양하면 빨리 변화한다.
 4) 가치 (Value)  :  어마어마한 규모의 non-transactional data에 무엇이 소중한 정보이고, 어떻게 추출해 낼 것인가 하는 것이 중요하다.