HDFS,YARN e os tipos de nós Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link para o download do putty: https://www.putty.org/ Link para o download do WINSCP: https://winscp.net/eng/download.php Link do meu Github: https://github.com/toticavalcanti COMPONENTES PRINCIPAIS DO HADOOP O HADOOP POSSUI DOIS COMPONENTES PRINCIPAIS QUE IMPLEMENTAM O ARMAZENAMENTO E O PROCESSAMENTO DISTRIBUÍDO: O HDFS QUE GERENCIA OS […]
Python e Scikit-learn Instalando o Pandas. Voltar para página principal do blog Todas as aulas desse curso Aula 03 Aula 05 Link do meu Github com o script dessa aula: Download do script da aula Link da documentação oficial do Sklearn: https://scikit-learn.org/stable/ Se gostarem do conteúdo dêem um joinha 👍 na página […]
Certificação Hortonworks Hadoop FS – Certificação HDP hortonworks Simulado da prova de certificação HDP Hortonworks TAREFA 02 Limpando os dados usando Pig Observe que os valores são separados por vírgulas nos arquivos flightdelays no HDFS contêm dados históricos de atrasos de vôos de linhas aéreas. As colunas nos arquivos correspondem ao seguinte esquema: Year, Month, […]
Aula 04 – Tensor Flow – Redes Neurais – TensorFlow Playground Voltar para página principal do blog Todas as aulas desse curso Aula 03 Aula 05 Meu github: https://github.com/toticavalcanti Documentação oficial do TensorFlow: https://www.tensorflow.org/ Link para o notebook da aula: notebook-da-aula Se gostarem do conteúdo dêem um joinha […]
Configuração da máquina Cloudera Link para o download da máquina: https://www.cloudera.com/downloads/quickstart_vms/5-13.html Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link para download do virtual box: https://www.virtualbox.org/wiki/Downloads/ Link para o download do putty: https://www.putty.org/ Link para o download do WINSCP: https://winscp.net/eng/download.php Link do meu Github: https://github.com/toticavalcanti Arquivo zipado Configurações da máquina cloudera Depois de unzipar o arquivo, […]
Curso de Data Science Aula 05 – Data Science – R – Caso do Titanic – Kaggle Continuando com o problema do Titanic proposto pelo Kaggle. Na última aula foi criado o campo Survived no titanic.test e atribuído valor NA ao campo, em todos os registros do titanic.test, agora vamos juntar o titanic.train e o […]
Certificação Hortonworks Hadoop FS – Certificação HDP hortonworks Simulado da prova de certificação HDP Hortonworks TAREFA 03 Analisando dados usando Pig Escreva um script Pig e salve na máquina cliente como /home/horton/solutions/cleaned_total.pig que calcula o número de linhas nos arquivos /user/horton/flightdelays_clean no HDFS. Armazene a saída do seu script em um novo diretório no HDFS […]
Aula 05 – Tensor Flow – Redes Neurais – Operações Voltar para página principal do blog Todas as aulas desse curso Aula 04 Aula 06 Meu github: https://github.com/toticavalcanti Documentação oficial do TensorFlow: https://www.tensorflow.org/ Link para o notebook da aula: notebook-da-aula Se gostarem do conteúdo dêem […]
Aprendizado de Máquina com Python e Scikit-learn Pandas na prática Voltar para página principal do blog Todas as aulas desse curso Aula 04 Aula 06 Link do meu Github com o script dessa aula: Download do script da aula Link da documentação oficial do Sklearn: https://scikit-learn.org/stable/ Se gostarem do conteúdo dêem um joinha […]
Contagem de palavras com PySpark Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti O SPARK É UMA ESTRUTURA DE PROCESSAMENTO BIG DATA, OPENSOURCE DESENVOLVIDA PARA TER VELOCIDADE, FACILIDADE DE USO E POSSIBILTAR ANÁLISE DE DADOS SOFISTICADAS O SPARK PODE SER 100X MAIS RÁPIDO QUE O HADOOP PARA PROCESSAMENTO DE DADOS EM […]
Curso de Data Science Aula 06 – Data Science – R – Caso do Titanic – Kaggle Continuando com o problema do Titanic proposto pelo Kaggle. Agora que o campo Embarked está devidamente limpo, vamos olhar agora para o campo Age. Rodando: table(is.na(titanic.full$Age)) Saída: FALSE TRUE 1046 263 Existem 263 registros sem a informação age […]
K – Nearest Neighbours (KNN), algoritmo dos vizinhos mais próximos Voltar para página principal do blog Todas as aulas desse curso Aula 05 Aula 07 Link do meu Github com o script dessa aula: Download do script da aula Link da documentação oficial do Sklearn: https://scikit-learn.org/stable/ Se gostarem do conteúdo dêem um joinha […]
Certificação Hortonworks Hadoop FS – Certificação HDP hortonworks Simulado da prova de certificação HDP Hortonworks TAREFA 04 Definindo uma tabela externa no Hive Defina uma tabela no Hive denominada flightdelays que corresponde aos dados armazenados no diretório /user/horton/flightdelays_clean no HDFS. A tabela deve satisfazer todos os seguintes critérios: A tabela deve ser externa com o […]
Aula 06 – Tensor Flow – Variáveis, Placeholders e Grafos Voltar para página principal do blog Todas as aulas desse curso Aula 05 Aula 07 Meu github: https://github.com/toticavalcanti Documentação oficial do TensorFlow: https://www.tensorflow.org/ Link para o notebook da aula: notebook-da-aula Se gostarem do conteúdo dêem um […]
Curso de Data Science Aula 07 – Data Science – R – Caso do Titanic – Kaggle Continuando com o problema do Titanic proposto pelo Kaggle. Já limpamos os campos Embarked e Age, agora vamos limpar o campo Fare. Verificação agora do campo Fare (tarifa): table(is.na(titanic.full$Fare)) Saída: FALSE TRUE 1308 1 Ou seja, 1 registro não […]
Scikit-Learn – Taxa de erros no KNN Comparando a taxa de erros com o valor K no KNN Voltar para página principal do blog Todas as aulas desse curso Aula 06 Aula 08 Link do meu Github com o script dessa aula: Download do script da aula Link da documentação oficial do […]
Certificação Hortonworks Hadoop FS – Certificação HDP hortonworks Simulado da prova de certificação HDP Hortonworks TAREFA 05 Use HCatalog com Pig Escreva um script Pig e salve na máquina local em /home/horton/solutions/flightdelays_nonzero.pig que satisfaça todos os seguintes critérios: Execute uma consulta Pig usando o Tez como o mecanismo(engine) de execução Carregue os dados da tabela […]
Aula 07 – Tensor Flow – Redes Neurais – Session Voltar para página principal do blog Todas as aulas desse curso Aula 06 Aula 08 Meu github: https://github.com/toticavalcanti Documentação oficial do TensorFlow: https://www.tensorflow.org/ Link para o notebook da aula: notebook-da-aula Se gostarem do conteúdo dêem um […]
Wordcount com PySpark Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti Essa aula é uma continuação da passada, vamos fazer a mesma coisa executar só que ao invés de digitar comando por comando no Shell PySpark como fizemos na aula passada, iremos salvar o script inteiro em um arquivo .py, podemos […]
Curso de Data Science Aula 08 – Data Science – R – Caso do Titanic – Kaggle Continuando com o problema do Titanic proposto pelo Kaggle. Agora que todos os registros tem a informação de Age, Embarked e Fare, vamos agora transformar algumas variáveis em variáveis categóricas, também conhecidas como qualitativas. Exemplos de variáveis qualitativas […]