본문 바로가기

Bigdata Hadoop

우분투에 빅데이터 모듈을 설치하는 순서

반응형

 

 

우분투에 빅데이터 모듈을 설치하는 순서

내용 정리 출처 문서 https://stackoverflow.com/questions/72582293/order-of-installing-big-data-modules-on-ubuntu


이것으로 시작하세요 https://www.digitalocean.com/community/tutorials/how-to-install-hadoop-in-stand-alone-mode-on-ubuntu-20-04 또는 https://phoenixnap.com/kb/install-hadoop-ubuntu PIG, Flume은 더 이상 관련이 없습니다. Hadoop 클러스터를 실행하는 경우 Zookeeper, 그 다음에는 Spark, 그 다음에는 Kafka. Mysql. 그러나 이 줄의 주문은 그다지 관련이 없습니다.


말씀하신 것 중 mysql을 제외한 모든 것에는 Java가 필요하므로 거기서부터 시작하세요. 

HDFS 또는 Kafka의 고가용성을 위해서는 Zookeeper가 필요합니다. Zookeeper는 종속성이 없으므로 다음 단계로 넘어갑니다. (프로덕션 클러스터의 경우 최소 서버 3대) 

Kafka는 다른 종속성이 없으므로 다음으로 설정할 수 있습니다. (고가용성을 위해 서버 3대 추가) 

Hive에는 Mysql과 같은 메타스토어가 필요하므로, Mysql을 설정하고 그 위에서 Hive 메타스토어 스키마 쿼리를 실행합니다. (읽기-쓰기 mysql 복제를 위해 최소 2개의 서버) 다음은 고가용성, 데이터 노드 및 YARN을 위한 여러 네임노드인 HDFS가 될 수 있습니다. (2개의 네임노드, 2개의 리소스 관리자, 3개의 데이터노드 + 노드 관리자를 위한 7개의 서버) Hive는 선택적으로 HDFS를 사용할 수 있으므로, 사용하고자 하는 경우 그 다음이 될 수 있으며, HDFS 네임노드에서 Zookeeper로 고가용성을 구성할 수 있습니다. Presto 또는 Spark는 Hive보다 빠르며 메타스토어를 사용하는 옵션입니다. (고가용성을 위해 2개의 HiveServer) YARN, HDFS, Hive를 사용하면 Spark를 설정할 수 있습니다. 

Flume은 그 다음이지만, 실제로 필요한 경우에만 사용할 수 있습니다. 그 외에는 Kafka에 직접 쓰도록 코드를 구성할 수 있습니다. Sqoop은 더 이상 사용되지 않는 Apache 프로젝트이며, 대신 Spark를 사용할 수 있습니다. Pig도 마찬가지입니다. Kafka와 MySQL이 포함된 최소한의 프로덕션 지원 Hadoop 클러스터에는 총 17개 이상의 서버가 필요합니다. 로드 밸런서와 LDAP/Active Directory를 추가하면 더 추가할 수 있습니다.


고마워요 Shubham...이 설치는 VM이 없는 로컬 Ubuntu 데스크톱용입니다. 빅 데이터에 익숙하지 않습니다. 위의 CDH 및 Ambari 모듈이 여기에 관련이 있습니까? 

 

Ambari는 은퇴 한 Apache 프로젝트이며 CDH 샌드 박스는 지불이 필요합니다. 마지막으로 확인했습니다 - OneCricketeer

 

예 , 링크를 따르십시오 docs.cloudera.com/documentation/enterprise/latest/topics/... - shubham bhindwal.

 

 

 

이미지 https://ubuntu.com/engage/enterprise-data-management-big-data

 

반응형

더욱 좋은 정보를 제공하겠습니다.~ ^^