Análise de sentimento com Flume e Twitter TERCEIRA PARTE Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti CONTINUANDO COM A CONSTRUÇÃO DA APLICAÇÃO DE ANÁLISE DE SENTIMENTO. COMO VAMOS UTILIZAR O HIVE, VAMOS CONHECER UM POUCO SOBRE ELE HIVE O HIVE É UM SISTEMA DE DATA WAREHOUSE OPENSOURCE, USADO PARA CONSULTAR […]
Análise de sentimento com Flume e Twitter SEGUNDA PARTE Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti VAMOS TENTAR USAR O TIPO DE SOURCE com.cloudera.flume.source.TwitterSource AO INVÉS DO org.apache.flume.source.twitter.TwitterSource SEM FAZER NENHUMA MODIFICAÇÃO NA MÁQUINA CLOUDERA . NO ARQUIVO flume_twitter.conf VAMOS DESCOMENTAR A LINHA ABAIXO, RETIRANDO A TRALHA (#) DO INÍCIO: TwitterAgent.sources.Twitter.type = […]
Análise de sentimento com Flume e Twitter PRIMEIRA PARTE Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti AVISO: As 3 aulas a seguir referentes a Análise de sentimento com Flume e Twitter, infelizmente não funciona mais na prática, a máquina cloudera usada na aula ficou desatualizada e foi descontinuada pela empresa. […]
Ingestão de dados com o Flume Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti DEFINIÇÃO O FLUME É UM SERVIÇO DE INGESTÃO DE DADOS PARA COLETAR, AGREGAR E TRANSPORTAR GRANDES QUANTIDADES DE FLUXO DE DADOS (STREAMING), COMO POR EXEMPLO: ARQUIVOS DE LOG, EVENTOS, DADOS DE REDES SOCIAIS, SENSORES, ETC. DE […]
Wordcount com PySpark Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti Essa aula é uma continuação da passada, vamos fazer a mesma coisa executar só que ao invés de digitar comando por comando no Shell PySpark como fizemos na aula passada, iremos salvar o script inteiro em um arquivo .py, podemos […]
Contagem de palavras com PySpark Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti O SPARK É UMA ESTRUTURA DE PROCESSAMENTO BIG DATA, OPENSOURCE DESENVOLVIDA PARA TER VELOCIDADE, FACILIDADE DE USO E POSSIBILTAR ANÁLISE DE DADOS SOFISTICADAS O SPARK PODE SER 100X MAIS RÁPIDO QUE O HADOOP PARA PROCESSAMENTO DE DADOS EM […]
Configuração da máquina Cloudera Link para o download da máquina: https://www.cloudera.com/downloads/quickstart_vms/5-13.html Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link para download do virtual box: https://www.virtualbox.org/wiki/Downloads/ Link para o download do putty: https://www.putty.org/ Link para o download do WINSCP: https://winscp.net/eng/download.php Link do meu Github: https://github.com/toticavalcanti Arquivo zipado Configurações da máquina cloudera Depois de unzipar o arquivo, […]
HDFS,YARN e os tipos de nós Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link para o download do putty: https://www.putty.org/ Link para o download do WINSCP: https://winscp.net/eng/download.php Link do meu Github: https://github.com/toticavalcanti COMPONENTES PRINCIPAIS DO HADOOP O HADOOP POSSUI DOIS COMPONENTES PRINCIPAIS QUE IMPLEMENTAM O ARMAZENAMENTO E O PROCESSAMENTO DISTRIBUÍDO: O HDFS QUE GERENCIA OS […]
Criando uma aplicação Django reutilizável no Windows Links da documentação oficial: https://docs.djangoproject.com/pt-br/1.11/intro/reusable-apps/ Para baixar o código como está até agora, acesse o meu github no link abaixo: https://github.com/toticavalcanti/django_course/tree/make_polls_package Vamos transformar nossa app web em um pacote Python autônomo que você pode reutilizar em novos projetos e compartilhar com outras pessoas. REUTILIZAÇÃO IMPORTA É um grande […]
Configuração da máquina Cloudera Link para o download da máquina: https://www.cloudera.com/downloads/quickstart_vms/5-13.html Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link para o download do putty: https://www.putty.org/ Link para o download do WINSCP: https://winscp.net/eng/download.php Link do meu Github: https://github.com/toticavalcanti Arquivo zipado Configurações da máquina cloudera Depois de unzipar o arquivo, é necessário fazer algumas configurações Acessando a […]
Introdução ao Map-Reduce Link da documentação oficial: http://hadoop.apache.org/ Github: https://github.com/toticavalcanti O MAPREDUCE DIVIDE VOLUMES IMENSOS DE DADOS EM PARTES PEQUENAS, QUE SÃO ENTÃO ESPALHADAS POR MUITOS COMPUTADORES EM VEZ DE MOVER DADOS PARA UM SOFTWARE DE PROCESSAMENTO – O QUE SERIA LENTO COM VOLUMES GRANDES DE DADOS – O PROCESSAMENTO É MOVIDO PARA ONDE ESTÃO OS DADOS, […]
Introdução ao Hadoop File System Links da documentação oficial: http://hadoop.apache.org/ Github: https://github.com/toticavalcanti HADOOP – INTRODUÇÃO É UMA PLATAFORMA DE COMPUTAÇÃO DISTRIBUÍDA VOLTADA PARA CLUSTERS E PROCESSAMENTO DE GRANDES VOLUMES DE DADOS É UM SISTEMA OPERACIONAL PARA BIG DATA CÓDIGO ABERTO CRIADO POR DOUG CUTTING DO GOOGLE LABS EM 2005 CRIAÇÃO MOTIVADA PELO DESAFIO DA ESCALABILIDADE PARA CONSEGUIR […]
Criando uma aplicação Django reutilizável Links da documentação oficial: https://docs.djangoproject.com/pt-br/1.11/intro/reusable-apps/ Para baixar o código como está até agora, acesse o meu github no link abaixo: https://github.com/toticavalcanti/django_course/tree/make_polls_package Vamos transformar nossa app web em um pacote Python autônomo que você pode reutilizar em novos projetos e compartilhar com outras pessoas. REUTILIZAÇÃO IMPORTA É um grande trabalho […]
Criando uma primeira aplicação com Django e mysql Personalizando o formulário de administração do django https://docs.djangoproject.com/pt-br/1.11/intro/tutorial07/ Para baixar o código como está até agora, acesse o meu github no link abaixo: https://github.com/toticavalcanti/django_course/tree/form_customize Continuando de onde paramos na aula 23, seguindo o restante da parte 7 do tutorial da documentação oficial do Django. Há um pequeno […]
Criando uma primeira aplicação com Django e mysql Personalizando o formulário de administração do Django https://docs.djangoproject.com/pt-br/1.11/intro/tutorial07/ Para baixar o código como está até agora, acesse o meu github no link abaixo: https://github.com/toticavalcanti/django_course/tree/form_customize Registrando o modelo Question através de admin.site.register(Question) O Django constrói um formulário padrão para representá-lo. Para customizar a apresentação e o funcionamento […]
Aula 06 – Curso de Python – Tuplas Aulas baseadas no livro Python para Desenvolvedores de Luiz Eduardo Borges. COMO UTILIZAR TUPLAS EM PYTHON Que fazer esse curso com certificação? Acesse: https://workover.com.br/python-codigo-fluente Voltar para página principal do blog Todas as aulas desse curso Aula 05 Aula 07 Automatize tarefas […]
Certificação Hortonworks Hadoop FS – Certificação HDP hortonworks Simulado da prova de certificação HDP Hortonworks TAREFA 10 Exportando com Sqoop Coloque o arquivo local /home/hortonworks/datasets/flightdelays/sfo_weather.csv no HDFS em um novo diretório chamado /user/hortonworks/weather/ Note que existe uma base de dados MySQL chamada flightinfo na máquina namenode, contendo uma tabela chamada weather com o esquema mostrado […]
Aula 09 – Curso básico de programação em R Leitura de arquivo com read table na prática Endereço para baixar os arquivos e o script: https://github.com/toticavalcanti/curso_r LEITURA DE ARQUIVO COM READ TABLE Para ler e escrever em arquivos, R usa working directory O comando getwd() obtém o diretório de trabalho e o setwd() define […]
Certificação Hortonworks Hadoop FS – Certificação HDP hortonworks Simulado da prova de certificação HDP Hortonworks TAREFA 09 Tabelas particionadas Hive Escreva uma consulta Hive em um arquivo chamado /home/horton/solutions/weather_partitioned.hive que satisfaça os seguintes critérios: Defina uma nova tabela Hive chamada weather_partitioned que tenha o mesmo esquema da tabela sfo_weather A tabela é particionada nas colunas […]
Criando uma primeira aplicação com Django e mysql Personalizando a aparência de uma app Django https://docs.djangoproject.com/pt-br/1.11/intro/tutorial06/ Para baixar o código como está até agora, acesse o meu github no link abaixo: https://github.com/toticavalcanti/django_course/tree/app_appearance Agora vamos adicionar uma folha de estilos e uma imagem. Além do HTML gerado pelo servidor, aplicações web normalmente precisam de outros arquivos […]