Introdução ao Hadoop File System

Links da documentação oficial:

http://hadoop.apache.org/

Github:

https://github.com/toticavalcanti

Hadoop Map Reduce

Hadoop Map Reduce

HADOOP – INTRODUÇÃO

  • É UMA PLATAFORMA DE COMPUTAÇÃO DISTRIBUÍDA VOLTADA PARA CLUSTERS E PROCESSAMENTO DE GRANDES VOLUMES DE DADOS
  • É UM SISTEMA OPERACIONAL PARA BIG DATA
  • CÓDIGO ABERTO
  • CRIADO POR DOUG CUTTING DO GOOGLE LABS EM 2005
  • CRIAÇÃO MOTIVADA PELO DESAFIO DA ESCALABILIDADE PARA CONSEGUIR INDEXAR BILHÕES DE PÁGINAS NA WEB
  • O HADOOP FOI PROJETADO PARA PARALELIZAR O PROCESSAMENTO DE DADOS ATRAVÉS DE NÓS DE COMPUTAÇÃO, ACELERAR PROCESSAMENTOS E ESCONDER A LATÊNCIA.

HADOOP – MÓDULOS

  • HADOOP COMMON – CONTÉM AS BIBLIOTECAS E ARQUIVOS COMUNS E NECESSÁRIOS PARA TODOS OS MÓDULOS HADOOP.
  • HADOOP DISTRIBUTED FILE SYSTEM (HDFS) – SISTEMA DE ARQUIVOS DISTRIBUÍDO QUE ARMAZENA DADOS EM MÁQUINAS DENTRO DO CLUSTER, SOB DEMANDA, PERMITINDO UMA LARGURA DE BANDA MUITO GRANDE EM TODO O CLUSTER.
  • HADOOP YARN – TRATA-SE DE UMA PLATAFORMA DE GERENCIAMENTO DE RECURSOS RESPONSÁVEL PELO GERENCIAMENTO DOS RECURSOS COMPUTACIONAIS EM CLUSTER, ASSIM COMO PELO AGENDAMENTO DOS RECURSOS.
  • HADOOP MAPREDUCE – MODELO DE PROGRAMAÇÃO PARALELA E DISTRIBUÍDA PARA PROCESSAMENTO EM LARGA ESCALA.

HADOOP – FUNCIONAMENTO

Funcionamento Hadoop 01

Funcionamento Hadoop, cada nó é uma máquina diferente.

 

Funcionamento Hadoop 02

Divide o arquivo vermelho de 128 megas em dois blocos de 64.

 

Funcionamento Hadoop 03

Distribui as réplicas do bloco 1 do arquivo vermelho

 

Funcionamento Hadoop 04

Distribui as réplicas do bloco 1 do arquivo vermelho

 

Funcionamento Hadoop 05

Distribui as réplicas do bloco 2 do arquivo vermelho

 

Funcionamento Hadoop 06

Distribui as réplicas do bloco 2 do arquivo vermelho

 

Funcionamento Hadoop 07

Distribui as réplicas do bloco 1 do arquivo amarelo

 

Funcionamento Hadoop 08

Distribui as réplicas do bloco 1 do arquivo amarelo

 

Funcionamento Hadoop 09

Distribui as réplicas do bloco 2 do arquivo amarelo

 

Funcionamento Hadoop 10

Distribui as réplicas do bloco 2 do arquivo amarelo

 

Funcionamento Hadoop 11

Distribui as réplicas do bloco 3 do arquivo amarelo

 

Funcionamento Hadoop 12

O arquivo azul será escrito no HDFS

 

Funcionamento Hadoop 13

É preciso se comunicar com o namenode para saber onde escrever

 

Funcionamento Hadoop 14

Comunicação com o namenode solicitando a escrita do arquivo azul

 

Funcionamento Hadoop 15

O name node responde: grave nos nós 1, 2 e 3

 

Funcionamento Hadoop 16

O cliente se comunica com o nó 1

 

Funcionamento Hadoop 17

O nó 1 se comunica com o 3 para a réplica do bloco 1 do arquivo azul

Funcionamento Hadoop 18

O nó 3 replica o bloco 1 do arquivo azul no nó 4

HADOOP – LENDO ARQUIVO

Funcionamento Hadoop 19

Lendo um arquivo, é preciso saber onde ele se espalha, por quais nós,  é preciso se comunicar com o namenode

 

Funcionamento Hadoop 20

O namenode retorna dizendo que ele está nos nós 1, 3 e 4

  • QUANDO SE QUER DESCOBRIR O QUE TÁ ACONTECENDO COM CLUSTER, É PRECISO SE COMUNICAR COM O NAMENODE
  • POR EXEMPLO: ONDE POSSO LER O ARQUIVO AZUL?
  • COM A RESPOSTA DO NAMENODE, A COMUNICAÇÃO PASSA A SER DIRETAMENTE COM O(S) DATANODE(S) QUE TEM O ARQUIVO AZUL

HADOOP – RESPONSABILIDADES

Funcionamento Hadoop 21

 

Funcionamento Hadoop 22

Queda do nó 3

 

Funcionamento Hadoop 23

 

Funcionamento Hadoop 24

Namenode replica o bloco 1 do arquivo amarelo no nó 4

 

Funcionamento Hadoop 25

Namenode replica o bloco 1 do arquivo vermelhono nó 2

 

Funcionamento Hadoop 26

Namenode replica o bloco 2 do arquivo vermelho no nó 1

 

Funcionamento Hadoop 27

Namenode replica o bloco 2 do arquivo amarelo no nó 1

 

Funcionamento Hadoop 28

Namenode replica o bloco 1 do arquivo azul no nó 2

 

Funcionamento Hadoop 29

Agora todos os blocos de todos os arquivos estão replicados 3 vezes através das máquinas do cluster

HADOOP – RÉPLICAS

  • AS RÉPLICAS SÃO NÃO SÓ PARA A SEGURANÇA DA INTEGRIDADE DOS DADOS, MAS TAMBÉM PELA LOCALIZAÇÃO DOS DADOS
  • IMAGINEMOS QUE SE QUEIRA FAZER UM MAP-REDUCE NO ARQUIVO AZUL, COMO ELE TÁ NOS NÓS 1, 2 E 4, O TRABALHO DE MAP-REDUCE DEVERÁ OCORRER PREFERENCIALMENTE NESSES NÓS
  • NO MAP-REDUCE, O PROCESSAMENTO É LEVADO AOS DADOS E NÃO OS DADOS AO PROCESSAMENTO

Obrigado

Até a próxima

Aula 01 – Introdução ao Hadoop File System

About The Author
-

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>