[centos6 기준]노드들 ip확인 cd /etc/sysconfig/network-scripts vi /etc/hosts아이피 이름 작성 service network restart service iptables stopchkconfig iptables --listchkconfig iptables off master하둡 파일 환경설정노드들한테 ping날려보고 마스터에서 ssh-keygenssh-copy-id -i ~/.ssh/id_rsa.pub root@slaveN 노드들 환경변수 설정
하둡을 켜신 상태에서 하셔야 합니다. 먼저 파일을 올릴 input이란 폴더를 생성합니다.명령어는 hadoop fs -mkdir [이름] 생성된 결과를 확인해 보겠습니다.명령어는 hadoop fs -ls [이름] 입니다. 웹 UI로도 확인이 가능합니다. input 폴더에 test-data.txt 라는 텍스트 파일을 넣고 확인해보았습니다. 파일을 넣는 명령어는 hadoop fs -put [로컬 디렉토리 파일 경로] [목적지] 이고확인 명령어는 hadoop fs -ls [이름] 입니다. 웹에서 확인해본 결과입니다.
클라이언트가 하둡으로 실행을 요청하는 맵리듀스 프로그램의 하나의 작업 단위를 잡(job)이라고 합니다. 하둡 클러스터에 등록된 전체 잡의 스케줄링을 관리하고 모니터링을 잡 트래커(job tracker)가 수행합니다. 보통 네임 노드에서 실행하지만 잡트레커를 꼭 네임노드에서 실행할 필요는 없습니다. 태스크 트레커는 사용자가 설정한 맵리듀스 프로그램을 실행합니다. 태스크 트레커는 데이터 노드에서 실행됩니다. 태스크 트레커는 잡 트래커의 작업을 요청받고, 잡 트레커가 요청한 맵과 리듀스 개수만큼 맵 태스트와 리듀스 태스크를 생성 및 실행합니다.
맵리듀스(MapReduce)란 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 2004년 발표한 소프트웨어 프레임워크입니다. 맵리듀스를 간단하게 설명하자면, 한명이 4주 작업할 일을 4명이 나누어 1주일에 끝내는 것이라고 할 수 있습니다. 이 개념이 하둡에서 사용하는 병렬 처리 개념이고, 4명의 작업자를 클러스터라고 합니다. 맵리듀스란 맵(Map)+리듀스(Reduce)로 이루어져 있습니다. 빅데이터에서 프로세스는 최대한 단순해야 합니다. RDBMS처럼 처리의 순서가 필요하거나 데이터 처리 실패로 인해 다시 되돌아가는 복잡한 연산은 어렵습니다. 프로세스를 간단하기 위해서는 기준이 되는 값을 하나로 잡아야 합니다. 맵에서는 key value를 이용하는데 key값을 이용하면..