발췌원문
오픈소스인 하둡은 분산처리 시스템인 구글 파일 시스템(GFS)을 대체할 수 있는 하둡 분산 파일 시스템(HDFS)과 맵리듀스를 구현한 것이다. 맵리듀스는 쉽게 말하면 데이터를 분산시켜 처리한 뒤 하나로 합치는 기술이다.물론 이와 유사한 기능을 제공했던게 바로 MPP다. 그러나 하둡은 MPP와 달리 사용이 편리했다. 개발자들이 각 데이터를 분산시키고 합치는 일을 할 필요없이 하둡의 맵리듀싱 기술이 이를 자동적으로 지원했다.
사용하기 쉽고 편리하다는 장점은 하둡이 급속도로 퍼지는 데 기여했다. 조금만 익히면 사용할 수 있었기 때문에 기업들은 하둡을 통해 PC를 병렬로 연결해 빅데이터를 분산 처리하는데 이용하기 시작했다. 기업은 사용자 분석을 쉽고 빨리 할 수 있으며, 사용자 지향의 새로운 서비스를 개발할 수 있게 지원하는 하둡의 기능을 주목했다.
아파치 하둡 페이지는 아래와 같이 정의한다
The project includes these subprojects:
- Hadoop Common: The common utilities that support the other Hadoop subprojects.
- Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
- Hadoop MapReduce: A software framework for distributed processing of large data sets on compute clusters.
조만간 공부를 좀 해봐야 할 듯하다. 많이 듣기는 했어도, 이게 뭐하는 거인지...
'IT > Big Data' 카테고리의 다른 글
[펌글]2012년 뜨거운 감자, ‘빅데이터’ (0) | 2011.12.27 |
---|---|
[펌글]글로벌 IT기업들 '한국 빅데이터 시장을 잡아라' (0) | 2011.12.26 |
[펌글]빅데이터 열풍 타고 BI 재조명 (1) | 2011.12.25 |
Big Data as Platform (0) | 2011.12.04 |
Big data (0) | 2011.12.04 |