본문 바로가기

Bigdata Hadoop

Unit sshd.service could not be found 에러 해결 [ssh -V] 명령어를 통해 확인할 경우 업그레이드한 버전에 대해 적용된 상태로 보여진다.  goodtech@goodtech-desktop:~$ ssh -VOpenSSH_9.6p1 Ubuntu-3ubuntu13.4, OpenSSL 3.0.13 30 Jan 2024 하지만 systemctl status sshd를 통해 확인하면 Unit sshd.service could not be found. 라고 출력된다. 물론 disable 상태다.  해당 메시지가 나타나는 이유는 새로 설치한 OpenSSH가 시스템 서비스로 등록되지 않았기 때문이다. OpenSSH를 소스에서 설치하면 서비스 파일을 수동으로 설정해줘야 한다.  1. 서비스 파일 생성  sudo nano /etc/systemd/system/sshd.s..
스파크 애플리케이션 기능 테스트를 위한 샘플 데이터 생성 방법 스파크 애플리케이션 기능 테스트를 위한 샘플 데이터 생성 방법  Spark 애플리케이션을 개발하는 동안 애플리케이션의 기능을 테스트하기 위해 샘플 데이터를 생성해야 하는 경우가 많습니다. 이 문서에서는 Spark 작업의 기능 및/또는 부하 테스트를 위해 spark-shell에서 샘플 데이터를 생성하는 간단하고 빠른 방법을 보여줍니다.  랜덤 함수 먼저 랜덤 데이터를 생성하는 함수가 필요합니다. 데이터 유형에 대한 요구 사항에 따라 랜덤 정수나 문자 등을 생성하는 여러 함수를 만들고 이를 조합하여 사용할 수 있습니다. 단순화를 위해 영숫자 문자열을 생성하는 Scala의 기본 제공 유틸리티를 사용하여 하나의 함수만 만들겠습니다. 사용자 지정 랜덤 문자열 생성기 함수를 작성하기로 결정할 수도 있습니다. 여기에..
빅 데이터 - 클러스터 환경: Raspberry Pi-4, Hadoop 및 Spark 기반 소개: 이 글에는 라즈베리 파이 - 4를 사용하여 저비용 고성능 빅데이터 클러스터를 만드는 자세한 지침이 포함되어 있습니다. 요즘 업계에서 유행하는 단어는 "빅데이터"이며, EPDT 프로그램에서 Saurabh 교수님의 지식 공유 세션에서 영감을 얻어 이 프로젝트를 시작하기로 결심했습니다. 이 프로젝트는 큰 시간이나 비용을 투자하지 않고도 하둡, 스파크, 클러스터 컴퓨팅에 익숙해지는 것을 목표로 합니다. 이 프로젝트는 라즈베리 파이 4를 사용하여 네트워크 스위치를 통해 서로 통신하는 3개의 노드로 구성된 네트워크 클러스터를 구축하고, HDFS를 설치하고, 전체 클러스터에서 YARN을 통해 분산 처리 작업으로 스파크가 실행되도록 할 것입니다. 이 글의 출처 문서를 따라가려면 이 링크를 클릭하세요. 이 글에서..
데이터 과학/빅데이터 실험실 - 4부 중 1부: 라즈베리 파이 또는 VM 클러스터 - OS 및 통신 데이터 과학/빅데이터 실험실 - 4부 중 1부: 라즈베리 파이 또는 VM 클러스터 - OS 및 통신 데이터 과학/빅데이터 실험실을 Raspberry Pi 4 또는 VM 클러스터에서 Hadoop, Spark, Hive, Kafka, Zookeeper 및 PostgreSQL로 조립하기  이 텍스트는 모든 Ubuntu 20.04 서버 클러스터에 설치를 지원하는 데 사용할 수 있으며, 이것이 잘 설계된 계층화 소프트웨어의 장점입니다. 아래 참고 링크 마지막에 본 글의 원래 링크를 추가합니다. 또한 노드가 더 많은 경우 원하는 대로 소프트웨어를 배포할 수 있습니다. 이 글에서는 ssh, vim, nano 등 Linux 명령줄을 알고 있다고 가정합니다. 통신을 설정해야 하고 Zookeeper와 Kafka 모두 홀수..
Windows에 Hadoop을 설치하는 방법 Windows 환경에서 Hadoop을 설치하는 방법  Hadoop은 빅데이터를 저장, 처리 및 분석하기 위해 Apache에서 개발한 오픈 소스 프레임워크입니다. Hadoop은 Java를 사용하여 작성되며 오프라인 배치 처리에 사용됩니다.  원문 기사를 보시려면 이 링크를 따라가세요.  Hadoop에 대해 자세히 설명하기 전에 먼저 빅 데이터의 개념을 파악해야 합니다. 기본적으로 빅 데이터는 크기가 매우 큰 데이터입니다. 빅 데이터에 대해 이야기할 때는 주로 3V에 초점을 맞춰야 합니다. 01. 속도: 데이터가 매우 빠르게 증가하고 있습니다. 이는 빅데이터의 속도가 매우 빠르다는 것을 의미합니다. 02. 다양성: 빅데이터에는 다양한 데이터가 존재합니다. 정형 데이터, 반정형 데이터, 비정형 데이터 등이 있..
우분투에 빅데이터 모듈을 설치하는 순서 우분투에 빅데이터 모듈을 설치하는 순서 내용 정리 출처 문서 https://stackoverflow.com/questions/72582293/order-of-installing-big-data-modules-on-ubuntu이것으로 시작하세요 https://www.digitalocean.com/community/tutorials/how-to-install-hadoop-in-stand-alone-mode-on-ubuntu-20-04 또는 https://phoenixnap.com/kb/install-hadoop-ubuntu PIG, Flume은 더 이상 관련이 없습니다. Hadoop 클러스터를 실행하는 경우 Zookeeper, 그 다음에는 Spark, 그 다음에는 Kafka. Mysql. 그러나 이 줄의 주..
라즈베리파이 클러스터를 구축하는 방법 물리적 클러스터를 구축하는 이유는 무엇인가요? 주의: 라즈베리파이 OS는 Bookworm 으로 업데이트되었습니다. 오늘날에는 Amazon이나 Digital Ocean 또는 다른 클라우드 제공업체에 가서 몇 초 만에 가상 머신을 가동할 수 있습니다. 하지만 클라우드는 다른 사람의 컴퓨터일 뿐입니다. 라즈베리파이 클러스터는 모든 종류의 클러스터 컴퓨팅 관련 기술에 사용할 수 있는 저비용의 다목적 시스템이며, 클러스터를 구성하는 머신을 완전히 제어할 수 있습니다. 처음부터 무언가를 직접 만들어 보면 다른 곳에서는 배울 수 없는 교훈을 얻을 수 있습니다. 참고 문서는 이 링크를 따라가세요.   우리가 구축할 것   단일 관리형 스위치에 연결된 8개의 노드 클러스터를 구성하겠습니다. 노드 중 하나는 소위 "헤드"..
라즈베리 파이 4 우분투 클러스터에 Hadoop HDFS 데이터 레이크 설치하기 소개몇 주 전에 저는 아파치 스파크에 기반한 실험적인 가정용 '빅 데이터' 시스템을 만들기로 했습니다. 이를 위한 첫 번째 단계는 아파치 스파크가 모든 것을 읽고 쓸 수 있는 분산 파일 시스템을 만드는 것입니다. 본 자료의 원문 기사는 이 링크를 따라가세요.HDFS는 오류 감지 및 복구, 대용량 데이터 세트, 데이터 하드웨어 등과 같은 기능을 제공하는 Hadoop 분산 파일 시스템으로, Hadoop 에코시스템의 일부이지만 Apache Spark의 데이터 분산 파일 시스템으로 훌륭하게 작동합니다. HDFS 파일시스템은 제 10개의 라즈베리파이 4 클러스터 중 8개의 RPI에 설치됩니다. 최소한의 스토리지 크기와 적절한 속도를 위해 SSD 8개 + USB3 어댑터 8개를 추가로 구입했습니다.    HDFS ..