Análise de sentimento com Flume e Twitter QUARTA PARTE Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti CONTINUANDO COM A CONSTRUÇÃO DA APLICAÇÃO DE ANÁLISE DE SENTIMENTO. CONSTRUÇÃO DO SCRIPT PYSPARK PARA A ANÁLISE FOI UTILIZADO O SPARK, UMA TECNOLOGIA DE COMPUTAÇÃO DISTRIBUÍDA EM CLUSTER, EXTREMAMENTE RÁPIDA. EXISTEM MUITOS MÉTODOS E […]
Análise de sentimento com Flume e Twitter SEGUNDA PARTE Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti VAMOS TENTAR USAR O TIPO DE SOURCE com.cloudera.flume.source.TwitterSource AO INVÉS DO org.apache.flume.source.twitter.TwitterSource SEM FAZER NENHUMA MODIFICAÇÃO NA MÁQUINA CLOUDERA . NO ARQUIVO flume_twitter.conf VAMOS DESCOMENTAR A LINHA ABAIXO, RETIRANDO A TRALHA (#) DO INÍCIO: TwitterAgent.sources.Twitter.type = […]
Contagem de palavras com PySpark Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti O SPARK É UMA ESTRUTURA DE PROCESSAMENTO BIG DATA, OPENSOURCE DESENVOLVIDA PARA TER VELOCIDADE, FACILIDADE DE USO E POSSIBILTAR ANÁLISE DE DADOS SOFISTICADAS O SPARK PODE SER 100X MAIS RÁPIDO QUE O HADOOP PARA PROCESSAMENTO DE DADOS EM […]
Wordcount com PySpark Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti Essa aula é uma continuação da passada, vamos fazer a mesma coisa executar só que ao invés de digitar comando por comando no Shell PySpark como fizemos na aula passada, iremos salvar o script inteiro em um arquivo .py, podemos […]