Aula 17 – Hadoop – Cloudera Quickstart com docker
Aula 17 – Hadoop – Cloudera Quickstart com docker
Aula anterior Próxima aula
Página principal
Meu github:
https://github.com/toticavalcanti
Meu Canal de Música:
https://www.youtube.com/channel/UCUEtjLuDpcOvR3mIUr-viOA
Meu canal de Backing track / Play-along:
https://www.youtube.com/channel/UCT3TryVMqTqYBjf5g5WAHfA
O canal do código fluente no youtube
https://www.youtube.com/channel/UCgn-O-88XBAwdG9gUWkkb0w
Fiquem a vontade para me adicionar ao linkedin.
Se gostarem do conteúdo dêem um joinha 👍 na página do Código Fluente no
Facebook
Esse é o link do código fluente no Pinterest
Meus links de afiliados:
Hostinger
Digital Ocean
One.com
Aula 17 – Hadoop – Cloudera Quickstart com docker
Nessa aula vamos aprender a usar a QuickStart cloudera com docker, ao invés de VM.
Recebi algumas mensagens pedindo um link para baixar a VM QuickStart, até passei um link do meu google drive com essa VM para as pessoas poderem baixar.
Nas respostas eu aconselho sempre a usar a imagem docker, porque é a que a cloudera dá suporte, e também porque uma imagem docker é muito mais leve do que uma VM.
No link https://community.cloudera.com/t5/Support-Questions/Cloudera-QuickStart-VM-Download/td-p/290587 o usuário Saagar pergunta:
“preciso do link para baixar a VM QuickStart 5.14 “.
E o moderador da comunidade cloudera Ferenc Erdélyi, o Bender, diz em resposta a pergunta do Saagar:
“Olá @Saagar,
Obrigado por expressar seu interesse em baixar o Quickstart VM para CDH5.14. Infelizmente, a Cloudera Quick start VM foi descontinuada.
Você pode tentar a imagem docker da Cloudera disponível publicamente em https://hub.docker.com/r/cloudera/quickstart ou simplesmente executar o comando abaixo para fazer o download no sistema habilitado para docker…”
FLUME
Ao longo do tutorial de Hadoop aqui do código fluente, das aulas 8 até a 12, foram aulas dedicadas ao Flume.
Eu repeti a experiência que tive durante minha pós graduação MIT em Big Data que fiz no Instituto InfNet.
Nesse trabalho, usei o Apache Flume e um script pyspark, que é o python para trabalhar distribuído no HDFS, para criar um analisador de sentimento baseado em posts do twitter, relacionado as eleições de 2018.
Apesar de simples e tosco, funcionou, acertando quem iria vir a ganhar a eleição a presidencial de 2018, contrariando inclusive e infelizmente meu voto, mas enfim, dados são dados.
Mas voltando ao que interessa.
Algumas pessoas e eu inclusive, tentei refazer a experiência em outro contexto, mas, não consegui fazer mais a conexão do Flume com o twitter.
Tentei atualizar a VM quickstart, atualizar o Java, atualizar o Flume, enfim… Várias tentativas e nada.
Conclusão que cheguei
Como a VM quickstart da cloudera foi descontinuada, acho que alguma atualização Java ou da API do Twitter entrou em conflito e deixaram de se falar.
No futuro, vou tentar repetir usando a imagem docker da quickstart da cloudera, essa que vou ensinar a partir de agora nessa aula.
Chega de blá blá blá
Agora sim, partiu tutorial 🙂
Requisitos
- Ter o docker instalado na sua máquina
O link para baixar a imagem docker é esse:
https://hub.docker.com/r/cloudera/quickstart/
Você pode baixar automaticamente usando o comando abaixo no shell do linux:
docker pull cloudera/quickstart
Tenha paciência são praticamente 4.5 gigas, então demora um pouquinho para baixar
Quando terminar, você pode executar o contêiner com:
docker run --hostname=quickstart.cloudera --privileged=true -t -i -v \
/Users/sohamadwani/Documents/yourDirectory:/src --publish-all=true -p 8888 \
cloudera/quickstart /usr/bin/docker-quickstart
Depois desse comando tenha paciência novamente, porque demora até o contêiner levantar completamente.
Para listar os contêineres em execução use o comando:
docker ps
Você deverá ver algumas informações do contêiner, entre elas o id.
Agora dê um docker inspect usando o id do contêiner, ao parecido com:
docker inspect 735b78805746
Ele vai retornar um monte de informações, mas, o que precisamos ver é essa parte em NetworkSettings:
“Ports”: {
“8888/tcp”: [
{
“HostIp”: “0.0.0.0”,
“HostPort”: “32768”
}
]
},
Então, para acessar no browser use:
localhost:32768
Você vai cair na página de login, para logar use:
username: cloudera
password: cloudera
Caso o hue não tenha iniciado, use o comando abaixo:
service hue start