Aula 17 – Hadoop – Cloudera Quickstart com docker

Aula 17 – Hadoop – Cloudera Quickstart com docker

Cloudera Quickstart em docker

Cloudera Quickstart em docker

Aula anterior                                            Próxima aula

Página principal

Meu github:

https://github.com/toticavalcanti

Meu Canal de Música:

https://www.youtube.com/channel/UCUEtjLuDpcOvR3mIUr-viOA

Meu canal de Backing track / Play-along:

https://www.youtube.com/channel/UCT3TryVMqTqYBjf5g5WAHfA

O canal do código fluente no youtube

https://www.youtube.com/channel/UCgn-O-88XBAwdG9gUWkkb0w

Fiquem a vontade para me adicionar ao linkedin.

Se gostarem do conteúdo dêem um joinha 👍 na página do Código Fluente no
Facebook

Esse é o link do código fluente no Pinterest

Meus links de afiliados:

Hostinger

Digital Ocean

One.com

Aula 17 – Hadoop – Cloudera Quickstart com docker

Nessa aula vamos aprender a usar a QuickStart cloudera com docker, ao invés de VM.

Recebi algumas mensagens pedindo um link para baixar a VM QuickStart, até passei um link do meu google drive com essa VM para as pessoas poderem baixar.

Nas respostas eu aconselho sempre a usar a imagem docker, porque é a que a cloudera dá suporte, e também porque uma imagem docker é muito mais leve do que uma VM.

No link https://community.cloudera.com/t5/Support-Questions/Cloudera-QuickStart-VM-Download/td-p/290587 o usuário Saagar pergunta:

preciso do link para baixar a VM QuickStart 5.14 “.

E o moderador da comunidade cloudera Ferenc Erdélyi, o Bender, diz em resposta a pergunta do Saagar:

Olá @Saagar,

Obrigado por expressar seu interesse em baixar o Quickstart VM para CDH5.14. Infelizmente, a Cloudera Quick start VM foi descontinuada.

Você pode tentar a imagem docker da Cloudera disponível publicamente em https://hub.docker.com/r/cloudera/quickstart ou simplesmente executar o comando abaixo para fazer o download no sistema habilitado para docker…

FLUME

Ao longo do tutorial de Hadoop aqui do código fluente, das aulas 8 até a 12, foram aulas dedicadas ao Flume.

Eu repeti a experiência que tive durante minha pós graduação MIT em Big Data que fiz no Instituto InfNet.

Nesse trabalho, usei o Apache Flume e um script pyspark, que é o python para trabalhar distribuído no HDFS, para criar um analisador de sentimento baseado em posts do twitter, relacionado as eleições de 2018.

Apesar de simples e tosco, funcionou, acertando quem iria vir a ganhar a eleição a presidencial de 2018, contrariando inclusive e infelizmente meu voto, mas enfim, dados são dados.

Mas voltando ao que interessa.

Algumas pessoas e eu inclusive, tentei refazer a experiência em outro contexto, mas, não consegui fazer mais a conexão do Flume com o twitter.

Tentei atualizar a VM quickstart, atualizar o Java, atualizar o Flume, enfim… Várias tentativas e nada.

Conclusão que cheguei

Como a VM quickstart da cloudera foi descontinuada, acho que alguma atualização Java ou da API do Twitter entrou em conflito e deixaram de se falar.

No futuro, vou tentar repetir usando a imagem docker da quickstart da cloudera, essa que vou ensinar a partir de agora nessa aula.

Chega de blá blá blá

Agora sim, partiu tutorial 🙂

Requisitos

  • Ter o docker instalado na sua máquina

O link para baixar a imagem docker é esse:

https://hub.docker.com/r/cloudera/quickstart/

Você pode baixar automaticamente usando o comando abaixo no shell do linux:


docker pull cloudera/quickstart

Tenha paciência são praticamente 4.5 gigas, então demora um pouquinho para baixar

Quando terminar, você pode executar o contêiner com:


docker run --hostname=quickstart.cloudera --privileged=true -t -i -v \
/Users/sohamadwani/Documents/yourDirectory:/src --publish-all=true -p 8888 \
cloudera/quickstart /usr/bin/docker-quickstart

Depois desse comando tenha paciência novamente, porque demora até o contêiner levantar completamente.

Para listar os contêineres em execução use o comando:


docker ps

Você deverá ver algumas informações do contêiner, entre elas o id.

Agora dê um docker inspect usando o id do contêiner, ao parecido com:

docker inspect 735b78805746

Ele vai retornar um monte de informações, mas, o que precisamos ver é essa parte em NetworkSettings:

“Ports”: {
  “8888/tcp”: [
    {
      “HostIp”: “0.0.0.0”,
      “HostPort”: “32768”
    }
  ]
},

Então, para acessar no browser use:

localhost:32768

Você vai cair na página de login, para logar use:

Login cloudera quick start

Login cloudera quick start

username: cloudera
password: cloudera

Caso o hue não tenha iniciado, use o comando abaixo:


service hue start

É isso pessoal, fico por aqui, até mais 🙂

Aula anterior                                            Próxima aula

Página principal

Meu github:

https://github.com/toticavalcanti

Meu Canal de Música:

https://www.youtube.com/channel/UCUEtjLuDpcOvR3mIUr-viOA

Meu canal de Backing track / Play-along:

https://www.youtube.com/channel/UCT3TryVMqTqYBjf5g5WAHfA

O canal do código fluente no youtube

https://www.youtube.com/channel/UCgn-O-88XBAwdG9gUWkkb0w

Fiquem a vontade para me adicionar ao linkedin.

Se gostarem do conteúdo dêem um joinha 👍 na página do Código Fluente no
Facebook

Esse é o link do código fluente no Pinterest

Meus links de afiliados:

Hostinger

Digital Ocean

One.com

About The Author
-

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>