본문 바로가기

IT/Big Data

Hadoop

발췌원문

오픈소스인 하둡은 분산처리 시스템인 구글 파일 시스템(GFS)을 대체할 수 있는 하둡 분산 파일 시스템(HDFS)과 맵리듀스를 구현한 것이다. 맵리듀스는 쉽게 말하면 데이터를 분산시켜 처리한 뒤 하나로 합치는 기술이다.

물론 이와 유사한 기능을 제공했던게 바로 MPP다. 그러나 하둡은 MPP와 달리 사용이 편리했다. 개발자들이 각 데이터를 분산시키고 합치는 일을 할 필요없이 하둡의 맵리듀싱 기술이 이를 자동적으로 지원했다.

사용하기 쉽고 편리하다는 장점은 하둡이 급속도로 퍼지는 데 기여했다. 조금만 익히면 사용할 수 있었기 때문에 기업들은 하둡을 통해  PC를 병렬로 연결해 빅데이터를 분산 처리하는데 이용하기 시작했다. 기업은 사용자 분석을 쉽고 빨리 할 수 있으며, 사용자 지향의 새로운 서비스를 개발할 수 있게 지원하는 하둡의 기능을 주목했다.


아파치 하둡 페이지는 아래와 같이 정의한다

The project includes these subprojects:

 
조만간 공부를 좀 해봐야 할 듯하다. 많이 듣기는 했어도, 이게 뭐하는 거인지...