본문 바로가기

IT/Big Data

Big Data as Platform

오라클 백서는 빅데이터 플랫폼에 3가지 요건이 충족되어야 한다고 말한다. 
-. data acquisition  :  급변하는 상황속에서 엄청난 양의 트랜색션을 처리할 수 있고, 캡쳐할 수 있어야 한다. 이 목적으로 NoSQL을 많이 사용한다. NoSQL(Not only SQL)은 데이터를 카테고리화 하지도 않고 파싱하지도 않고 그저 단순히 캡쳐한다. 일례로, 변화무쌍한 소셜 미디어 데이터를 수집/저장하는데 사용된다.

-. data organization :  Hadoop은 대용량 데이터를 데이터 스토리지 클러스터에 유지한 체로 조직화/프로세싱할 수있게 해주는 새 기술이다. 이를 위해, Haddop Distributed File System(HDFS)를 사용하는데, web-log 가 대표적인 사용처이다.

-. data analysis :  수많은 데이터를  급변하는 환경에서 분석해 낼 수 있는 인프라가 필요하다.

그리고 나서 솔루션 스펙트럼으로 2가지를 제안한다.
-. NoSQL :  NoSQL systems are designed to capture all data without categorizing and parsing it upon entry into the system, and therefore the data is highly varied. 
-. SQL  : SQL systems, on the other hand, typically place data in well-defined structures and impose metadata on the data captured to ensure consistency and validate data types.

오라클의 솔루션은 다음과 같다.
Oracle Big Data Appliance :
Hardware : a full rack configuration :  18 Sun servers / 432TB storage 
                                                             a server contains 2 cpu (16 core each) , therefore 216 cores per full rack
                                                             a server carries 48GB memory, therefore 864GB memory per full rack
Software :
   1) Oracle NoSQL database
   2) Oracle Loader for Hadoop  
   3) Oracle Data Integrator