본문 바로가기

hadoop

드디어 후지쯔가 !?! 이거 설마 GFS랑 PrimeCluster를 사용하나 ? 전에 몸담았던 곳 에서 좋은 물건이 나왔다는. 원글은 여기 후지쯔 빅데이터 “아파치 하둡은 잊어라” 김우용 기자 yong2@zdnet.co.kr 2012.03.04 / PM 01:31 [지디넷코리아]후지쯔가 자체적인 빅데이터 처리용 파일시스템을 개발했다. 오픈소스인 아파치 하둡보다 속도를 높였고 사용하기도 더 쉽다는 자랑과 함께다. 최근 외신에 따르면, 후지쯔는 하둡파일시스템과 일반 리눅스 파일시스템을 함께 사용할 수 있는 분산파일시스템 '인터스테이지 빅데이터 병렬프로세싱 서버 V1.0'을 공개했다. 유닉스, x86 서버등과 더불어 사용되는 기존 하둡 분산파일시스템(HDFS)의 제약사항을 없애고, 원활하고 전문적인 지원을 받을 수 있다고 회사측은 강조했다. 후지쯔에 따르면, 엔터프라이즈 기업의 시스템과 .. 더보기
[펌글]2012년 뜨거운 감자, ‘빅데이터’ 좋은 글이 있어 퍼왔다. 원글은 여기 2012년 뜨거운 감자, ‘빅데이터’ by 이지영 | 2011. 12. 26 엔터프라이즈 IT기업들의 2012년 경영 전략에서 빠지지 않는 키워드가 있다. 스마트폰과 SNS가 보편화 되면서 급속도로 증가한 데이터다. 가트너나 IDC 같은 시장조사기관들도 기업들이 향후 집중해야 할 사업 부문 중 하나로 ‘빅데이터’를 꼽았다. 이제 ‘빅데이터’는 IT기업이라면 떼려야 뗄 수 없는 화두가 됐다. 클라우드가 2010년과 2011년을 호령했다면 2012년은 빅데이터가 점령할 태세다. EMC, HP, IBM, 오라클, SAP 같은 IT 벤더들은 각자 빅데이터를 어떻게 감당하고, 관리하고, 분석할 것인지에 대해서 전략을 발표했다. EMC는 ‘데이터 과학의 시대가 왔다’라며 방대한.. 더보기
[펌글]글로벌 IT기업들 '한국 빅데이터 시장을 잡아라' 좋은 글이 있어서 퍼왔다. 원본은 여기 글로벌 IT기업들 '한국 빅데이터 시장을 잡아라' 인수 합병 기반으로 빅데이터 솔루션 대거 출시 2011년 12월 25일 오후 13:00 김관용기자 kky1441@inews24.com [김관용기자] 글로벌 IT기업들이 국내 빅데이터 시장 공략을 가속화하고 있다. 방대한 정형 및 비정형 데이터 분석을 위해 진보된 컴퓨팅 기술과 이를 저장하고 분석하는 스토리지 기술을 앞세워 한국 시장 선점을 노리고 있는 것. 이들이 내세운 빅데이터 솔루션은 그동안 인수합병한 회사들의 솔루션을 고도화시킨 것으로 정형 및 비정형의 대용량 데이터를 활용·분석해 가치있는 정보를 추출하고, 이를 바탕으로 능동적인 대응과 변화 예측을 하는 것이 특징이다. 한국IBM 이상호 소프트웨어그룹 미들웨어.. 더보기
Hadoop 발췌원문 오픈소스인 하둡은 분산처리 시스템인 구글 파일 시스템(GFS)을 대체할 수 있는 하둡 분산 파일 시스템(HDFS)과 맵리듀스를 구현한 것이다. 맵리듀스는 쉽게 말하면 데이터를 분산시켜 처리한 뒤 하나로 합치는 기술이다. 물론 이와 유사한 기능을 제공했던게 바로 MPP다. 그러나 하둡은 MPP와 달리 사용이 편리했다. 개발자들이 각 데이터를 분산시키고 합치는 일을 할 필요없이 하둡의 맵리듀싱 기술이 이를 자동적으로 지원했다. 사용하기 쉽고 편리하다는 장점은 하둡이 급속도로 퍼지는 데 기여했다. 조금만 익히면 사용할 수 있었기 때문에 기업들은 하둡을 통해 PC를 병렬로 연결해 빅데이터를 분산 처리하는데 이용하기 시작했다. 기업은 사용자 분석을 쉽고 빨리 할 수 있으며, 사용자 지향의 새로운 서비스를.. 더보기
Big Data as Platform 오라클 백서는 빅데이터 플랫폼에 3가지 요건이 충족되어야 한다고 말한다. -. data acquisition : 급변하는 상황속에서 엄청난 양의 트랜색션을 처리할 수 있고, 캡쳐할 수 있어야 한다. 이 목적으로 NoSQL을 많이 사용한다. NoSQL(Not only SQL)은 데이터를 카테고리화 하지도 않고 파싱하지도 않고 그저 단순히 캡쳐한다. 일례로, 변화무쌍한 소셜 미디어 데이터를 수집/저장하는데 사용된다. -. data organization : Hadoop은 대용량 데이터를 데이터 스토리지 클러스터에 유지한 체로 조직화/프로세싱할 수있게 해주는 새 기술이다. 이를 위해, Haddop Distributed File System(HDFS)를 사용하는데, web-log 가 대표적인 사용처이다. -. .. 더보기
Big data 요즘 빅데이터가 화두이다. 오라클이 최근 빅데이터에 관한 백서(white paper)를 발표했다. Big Data ? 과거에는 office documents 및 transactional data가 주축이었고 이런 데이터들이 대부분 관계형 데이터베이스에 저장이 되었다. 그런데 지금은 non-traditional, less structured data가 점점 부각이 되어지고 있으며 여기에서부터 의미있는 정보를 캐 낼려고 하고 있다. 대표적인 예료 웹로그, 소셜미디어, 이메일, 센서, 사진등이 그 것이다. 이런 정보의 양이 엄청나다는 것은 다 알고 있는데, 최근 가격 경쟁력이 있어진 스토리지 및 컴퓨팅파워로 인해, 이런 주장이 더 실현가능해 지고 있기도 하다. 백서에서는 Big Data를 아래와 같이 정의한다.. 더보기