Aula 16 – Hadoop – Tutorial Apache Pig Aula anterior Próxima aula Página principal Se gostarem do conteúdo dêem um joinha 👍 na página do Código Fluente no Facebook Esse é o link do código fluente no Pinterest Meus links de afiliados: Hostinger […]
Apache Sqoop – Big Data Analytics Ferramentas de big data analytics do ecossistema hadoop O Apache Sqoop intermedia o Hadoop file system e bancos relacionais (SGBDR) Esse é o link da documentação oficial: http://sqoop.apache.org/ Continuando Vamos agora importar todas as tabelas do retail_db do mysql para o hdfs no formato Avro. Na aula passada foi explicado […]
Apache Sqoop Ferramentas do ecossistema Hadoop para big data analytics Mas afinal, o que é sqoop? Para que serve o sqoop? E quando devo usar o sqoop? Espero que esse post deixe todas essas perguntas bem claras para vocês. Então, vamos a um pouco de sua história. O Apache Sqoop (TM) foi projetado para transferir […]
Análise de sentimento com Flume e Twitter QUARTA PARTE Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti CONTINUANDO COM A CONSTRUÇÃO DA APLICAÇÃO DE ANÁLISE DE SENTIMENTO. CONSTRUÇÃO DO SCRIPT PYSPARK PARA A ANÁLISE FOI UTILIZADO O SPARK, UMA TECNOLOGIA DE COMPUTAÇÃO DISTRIBUÍDA EM CLUSTER, EXTREMAMENTE RÁPIDA. EXISTEM MUITOS MÉTODOS E […]
Análise de sentimento com Flume e Twitter TERCEIRA PARTE Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti CONTINUANDO COM A CONSTRUÇÃO DA APLICAÇÃO DE ANÁLISE DE SENTIMENTO. COMO VAMOS UTILIZAR O HIVE, VAMOS CONHECER UM POUCO SOBRE ELE HIVE O HIVE É UM SISTEMA DE DATA WAREHOUSE OPENSOURCE, USADO PARA CONSULTAR […]
Análise de sentimento com Flume e Twitter SEGUNDA PARTE Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti VAMOS TENTAR USAR O TIPO DE SOURCE com.cloudera.flume.source.TwitterSource AO INVÉS DO org.apache.flume.source.twitter.TwitterSource SEM FAZER NENHUMA MODIFICAÇÃO NA MÁQUINA CLOUDERA . NO ARQUIVO flume_twitter.conf VAMOS DESCOMENTAR A LINHA ABAIXO, RETIRANDO A TRALHA (#) DO INÍCIO: TwitterAgent.sources.Twitter.type = […]
Análise de sentimento com Flume e Twitter PRIMEIRA PARTE Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti AVISO: As 3 aulas a seguir referentes a Análise de sentimento com Flume e Twitter, infelizmente não funciona mais na prática, a máquina cloudera usada na aula ficou desatualizada e foi descontinuada pela empresa. […]
Ingestão de dados com o Flume Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti DEFINIÇÃO O FLUME É UM SERVIÇO DE INGESTÃO DE DADOS PARA COLETAR, AGREGAR E TRANSPORTAR GRANDES QUANTIDADES DE FLUXO DE DADOS (STREAMING), COMO POR EXEMPLO: ARQUIVOS DE LOG, EVENTOS, DADOS DE REDES SOCIAIS, SENSORES, ETC. DE […]
Wordcount com PySpark Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti Essa aula é uma continuação da passada, vamos fazer a mesma coisa executar só que ao invés de digitar comando por comando no Shell PySpark como fizemos na aula passada, iremos salvar o script inteiro em um arquivo .py, podemos […]
Contagem de palavras com PySpark Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti O SPARK É UMA ESTRUTURA DE PROCESSAMENTO BIG DATA, OPENSOURCE DESENVOLVIDA PARA TER VELOCIDADE, FACILIDADE DE USO E POSSIBILTAR ANÁLISE DE DADOS SOFISTICADAS O SPARK PODE SER 100X MAIS RÁPIDO QUE O HADOOP PARA PROCESSAMENTO DE DADOS EM […]
Introdução ao Map-Reduce Link da documentação oficial: http://hadoop.apache.org/ Github: https://github.com/toticavalcanti O MAPREDUCE DIVIDE VOLUMES IMENSOS DE DADOS EM PARTES PEQUENAS, QUE SÃO ENTÃO ESPALHADAS POR MUITOS COMPUTADORES EM VEZ DE MOVER DADOS PARA UM SOFTWARE DE PROCESSAMENTO – O QUE SERIA LENTO COM VOLUMES GRANDES DE DADOS – O PROCESSAMENTO É MOVIDO PARA ONDE ESTÃO OS DADOS, […]