Contagem de palavras com PySpark Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti O SPARK É UMA ESTRUTURA DE PROCESSAMENTO BIG DATA, OPENSOURCE DESENVOLVIDA PARA TER VELOCIDADE, FACILIDADE DE USO E POSSIBILTAR ANÁLISE DE DADOS SOFISTICADAS O SPARK PODE SER 100X MAIS RÁPIDO QUE O HADOOP PARA PROCESSAMENTO DE DADOS EM […]
Wordcount com PySpark Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti Essa aula é uma continuação da passada, vamos fazer a mesma coisa executar só que ao invés de digitar comando por comando no Shell PySpark como fizemos na aula passada, iremos salvar o script inteiro em um arquivo .py, podemos […]