HDFS,YARN e os tipos de nós

Link da documentação oficial do Hadoop:

http://hadoop.apache.org/

Link para o download do putty:

https://www.putty.org/

Link para o download do WINSCP:

https://winscp.net/eng/download.php

Link do meu Github:

https://github.com/toticavalcanti

HDFS,YARN e os tipos de nós

COMPONENTES PRINCIPAIS DO HADOOP

O HADOOP POSSUI DOIS COMPONENTES PRINCIPAIS QUE IMPLEMENTAM O ARMAZENAMENTO E O PROCESSAMENTO DISTRIBUÍDO:

  • O HDFS QUE GERENCIA OS DADOS ARMAZENADOS EM DISCOS NO CLUSTER
  • E O YARN QUE GERENCIA OS RECURSOS DO CLUSTER, ALOCANDO RECURSOS COMPUTACIONAIS PARA APLICAÇÕES QUE QUEIRAM FAZER UM PROCESSAMENTO DISTRIBUÍDO
  • TODO O MAPREDUCE ORIGINAL ESTÁ IMPLEMENTADO AGORA NO YARN, ASSIM COMO O APACHE GIRAPH (PROCESSAMENTO EM GRAFOS)E O APACHE SPARK (PROCESSAMENTO EM MEMÓRIA).

O HDFS E O YARN TRABALHAM EM CONJUNTO PARA MINIMIZAR O VOLUME DE TRÁFEGO DE REDE NO CLUSTER.

A PRINCIPAL PREOCUPAÇÃO É GARANTIR QUE OS DADOS SEJAM LOCAIS AO PROCESSAMENTO SOLICIDADO.

O HDFS E O YARN FORMAM UMA PLATAFORMA SOBRE A QUAL APLICAÇÕES BIG DATA SÃO CONSTRUÍDAS.

FORMAM UM SISTEMA OPERACIONAL PARA BIG DATA.

CONSISTE EM VÁRIOS PROCESSOS DAEMON, RODANDO EM SEGUNDO PLANO.

DOIS TIPOS DE NÓS BÁSICOS

NÓS MESTRES (MASTERS) – COORDENA OS NÓS TRABALHADORES, GERALMENTE SÃO OS PONTOS DE ENTRADA PARA O ACESSO DO USUÁRIO AO CLUSTER.

NÓS TRABALHADORES – ACEITAM AS TAREFAS DESIGNADAS PELOS NÓS MESTRES, PARA ARMAZENAR OU LER DADOS OU EXECUTAR UMA APLICAÇÃO EM PARTICULAR.

TANTO O HDFS COMO O YARN TÊM VÁRIOS SERVIÇOS MESTRES RESPONSÁVEIS PELA COORDENAÇÃO DOS SERVIÇOS TRABALHADORES QUE EXECUTAM EM CADA NÓ.

SERVIÇOS DO HDFS

NameNode (MESTRE) – ARMAZENA A ÁRVORE DE DIRETÓRIOS DO SISTEMA DE ARQUIVOS, METADADOS DE ARQUIVOS E AS LOCALIZAÇÕES DE CADA ARQUIVO NO CLUSTER.

ELE NÃO ARMAZENA DADOS E NEM PASSA DO DATANODE AO CLIENTE, O QUE ELE FAZ É APONTAR OS DATANODES CORRETOS AOS CLIENTES.

NameNode SECUNDÁRIO (MESTRE) – EXECUTAM TAREFAS DE MANUTENÇÃO (HOUSEKEEPING) E DE PONTOS DE VERIFICAÇÃO (CHECKPOINTING) EM NOME DO NAMENODE (ELE NÃO É UM NAMENODE DE BACKUP!)

DataNode (TRABALHADOR) – ARMAZENA E ADMINISTRA BLOCOS HDFS NO DISCO LOCAL E INFORMA A SAÚDE E O STATUS DE REPOSITÓRIOS INDIVIDUAIS DE DADOS AO NameNode.

SERVIÇOS DO YARN

ResourceManager (MESTRE) – ALOCA E MONITORA RECURSOS DISPONÍVEIS NO CLUSTER (MEMÓRIA E PROCESSADORES) PARA AS APLICAÇÕES E TRATA DO ESCALONAMENTO DOS JOBS NO CLUSTER.

ApplicationMaster (MESTRE) – COORDENA UMA APLICAÇÃO EM PARTICULAR EXECUTADA NO CLUSTER DE ACORDO COM O ESCALONAMENTO FEITO PELO ResourceManager.

NodeManager (TRABALHADOR) – EXECUTA E ADMINISTRA TAREFAS DE PROCESSAMENTO EM UM NÓ INDIVIDUAL E INFORMA SOBRE A SAÚDE E O STATUS DAS TAREFAS À MEDIDA QUE ELAS EXECUTAM.

HADOOP NA PRÁTICA

LINK PARA BAIXAR shakespeare.txt https://github.com/toticavalcanti/Curso_Hadoop/raw/master/shakespeare.txt

PRÉ-REQUISITO:

  • TER O VIRTUAL BOX, TER A MÁQUINA CLOUDERA JÁ IMPORTADA E CONFIGURADA COMO MOSTRADO NA AULA PASSADA.
  • TER O PUTTY E O WINSCP JÁ INSTALADOS NA SUA MÁQUINA FÍSICA, NO MEU CASO WINDOWS 10. SÃO SOFTWARES GRATUÍTOS.

CUMPRIDO OS REQUISITOS, VAMOS INICIAR A MÁQUINA CLOUDERA.

DEPOIS DE INICIADA, VAMOS USAR O WINSCP PARA TRANFERIR O ARQUIVO shakespeare.txt PARA O SISTEMA DE ARQUIVOS LOCAL DA MÁQUINA CLOUDERA.

Obrigado

Até a próxima

 

 

Aula 04 – HDFS – YARN e os tipos de nós

About The Author
-

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>