본문 바로가기

하둡

빅데이터 수집한 후 분석이 더 중요하다 수집만 한다고 되는 게 아니다라는 얘기. 분석을 해야하는데 그 분석은 누가? 원글은 여기 “빅데이터로 국가를 운영하려면…”by 이지영 | 2012. 06. 14엔터프라이즈과학기술이 발전하면서 10년 전만 해도 발생 속도가 빠르고 양이 방대해 처리하지 못했던 데이터를 수집하고 처리할 수 있는 기회가 열렸다. 오픈소스 하둡의 등장은 슈퍼컴퓨터가 아니더라도 데스크톱 PC를 여러 대 붙이면 대용량 데이터로부터 가치를 얻어낼 수 있음을 보여줬다.신용카드 거래 내역, 휴대폰 통화 기록, 인터넷 접속 기록, 하루에 판매되는 의약품 수 등 바야흐로 주변에 데이터가 넘쳐나는 시대다. 미국과 영국, 싱가포르는 하루에 수없이도 발생하는 데이터를 통해 국가를 운영해보겠다고 도전장을 내밀었다. 국가 차원에서 공개할 수 있는 모.. 더보기
Hadoop 발췌원문 오픈소스인 하둡은 분산처리 시스템인 구글 파일 시스템(GFS)을 대체할 수 있는 하둡 분산 파일 시스템(HDFS)과 맵리듀스를 구현한 것이다. 맵리듀스는 쉽게 말하면 데이터를 분산시켜 처리한 뒤 하나로 합치는 기술이다. 물론 이와 유사한 기능을 제공했던게 바로 MPP다. 그러나 하둡은 MPP와 달리 사용이 편리했다. 개발자들이 각 데이터를 분산시키고 합치는 일을 할 필요없이 하둡의 맵리듀싱 기술이 이를 자동적으로 지원했다. 사용하기 쉽고 편리하다는 장점은 하둡이 급속도로 퍼지는 데 기여했다. 조금만 익히면 사용할 수 있었기 때문에 기업들은 하둡을 통해 PC를 병렬로 연결해 빅데이터를 분산 처리하는데 이용하기 시작했다. 기업은 사용자 분석을 쉽고 빨리 할 수 있으며, 사용자 지향의 새로운 서비스를.. 더보기
Big Data as Platform 오라클 백서는 빅데이터 플랫폼에 3가지 요건이 충족되어야 한다고 말한다. -. data acquisition : 급변하는 상황속에서 엄청난 양의 트랜색션을 처리할 수 있고, 캡쳐할 수 있어야 한다. 이 목적으로 NoSQL을 많이 사용한다. NoSQL(Not only SQL)은 데이터를 카테고리화 하지도 않고 파싱하지도 않고 그저 단순히 캡쳐한다. 일례로, 변화무쌍한 소셜 미디어 데이터를 수집/저장하는데 사용된다. -. data organization : Hadoop은 대용량 데이터를 데이터 스토리지 클러스터에 유지한 체로 조직화/프로세싱할 수있게 해주는 새 기술이다. 이를 위해, Haddop Distributed File System(HDFS)를 사용하는데, web-log 가 대표적인 사용처이다. -. .. 더보기