Ingestão de dados com o Flume Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti DEFINIÇÃO O FLUME É UM SERVIÇO DE INGESTÃO DE DADOS PARA COLETAR, AGREGAR E TRANSPORTAR GRANDES QUANTIDADES DE FLUXO DE DADOS (STREAMING), COMO POR EXEMPLO: ARQUIVOS DE LOG, EVENTOS, DADOS DE REDES SOCIAIS, SENSORES, ETC. DE […]
Scikit-Learn – Support Vector Machine ou máquina de vetores de suporte Máquina de vetores de suporte ou SVM Voltar para página principal do blog Todas as aulas desse curso Aula 07 Aula 09 Link do meu Github com o script dessa aula: Download do script da aula Link da documentação oficial […]
Certificação Hortonworks Hadoop FS – Certificação HDP hortonworks Simulado da prova de certificação HDP Hortonworks TAREFA 06 Analisando dados com o Hive Escreva uma consulta em HiveQL e salve as consultas em um único arquivo de texto chamado /home/horton/solutions/flightdelays.hive para cada uma das tarefas abaixo: Calcule o arrdelay médio dos voos que desembarcam em Denver […]
Aula 08 – Tensor Flow – Redes Neurais – Classificação Voltar para página principal do blog Todas as aulas desse curso Aula 07 Aula 09 Meu github: https://github.com/toticavalcanti Documentação oficial do TensorFlow: https://www.tensorflow.org/ Link para o notebook da aula: notebook-da-aula Se gostarem do conteúdo dêem um […]
Análise de sentimento com Flume e Twitter PRIMEIRA PARTE Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti AVISO: As 3 aulas a seguir referentes a Análise de sentimento com Flume e Twitter, infelizmente não funciona mais na prática, a máquina cloudera usada na aula ficou desatualizada e foi descontinuada pela empresa. […]
Curso de Data Science Aula 09 – Data Science – R – Caso do Titanic – Kaggle Continuando com o problema do Titanic proposto pelo Kaggle. CONSTRUÇÃO DO MODELO Random Forest é um método de aprendizado sobre conjuntos de dados (ensemble learning) para construir modelos de classificação, regressão e outras tarefas; Gera múltiplas árvores de […]
Scikit-Learn – Aplicando SVM ao Digits Dataset Aprendendo e prevendo com SVM Voltar para página principal do blog Todas as aulas desse curso Aula 08 Aula 10 Link do meu Github com o script dessa aula: Download do script da aula Link da documentação oficial do Sklearn: https://scikit-learn.org/stable/ Se gostarem […]
Certificação Hortonworks Hadoop FS – Certificação HDP hortonworks Simulado da prova de certificação HDP Hortonworks TAREFA 07 Definir e preencher uma tabela ORCFile Defina uma tabela Hive chamada sfo_weather que satisfaça todos os seguintes critérios: Uma tabela gerenciada pelo Hive Os dados são armazenados no formato ORCFile A tabela deve ser preenchida com os registros […]
Aula 09 – Tensor Flow – Sintaxe Básica Voltar para página principal do blog Todas as aulas desse curso Aula 08 Aula 10 Meu github: https://github.com/toticavalcanti Documentação oficial do TensorFlow: https://www.tensorflow.org/ Link para o notebook da aula: notebook-da-aula Se gostarem do conteúdo dêem um joinha 👍 […]
Análise de sentimento com Flume e Twitter SEGUNDA PARTE Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti VAMOS TENTAR USAR O TIPO DE SOURCE com.cloudera.flume.source.TwitterSource AO INVÉS DO org.apache.flume.source.twitter.TwitterSource SEM FAZER NENHUMA MODIFICAÇÃO NA MÁQUINA CLOUDERA . NO ARQUIVO flume_twitter.conf VAMOS DESCOMENTAR A LINHA ABAIXO, RETIRANDO A TRALHA (#) DO INÍCIO: TwitterAgent.sources.Twitter.type = […]
Curso de Data Science Aula 10 – Data Science – R – Caso do Titanic – Kaggle Continuação da aula 09, agora rodando os comandos no RStudio Continuando com o problema do Titanic proposto pelo Kaggle. CONSTRUÇÃO DO MODELO Random Forest é um método de aprendizado sobre conjuntos de dados (ensemble learning) para construir modelos […]
Aula 10 – Scikit-Learn – Persistência do modelo com Pickle Voltar para página principal do blog Todas as aulas desse curso Aula 09 Aula 11 Link do meu Github com o script dessa aula: Download do script da aula Link da documentação oficial do Sklearn: https://scikit-learn.org/stable/ Se gostarem do conteúdo […]
Certificação Hortonworks Hadoop FS – Certificação HDP hortonworks Simulado da prova de certificação HDP Hortonworks TAREFA 08 Hive Join Escreva uma consulta Hive em um arquivo chamado /home/horton/solutions/flights_weather.hive que satisfaça os seguintes critérios: Use Tez as the execution engine O resultado da consulta deve gerar uma nova tabela Hive chamada flight_weather armazenada como um arquivo […]
Aula 10 – Tensor Flow – Grafos Voltar para página principal do blog Todas as aulas desse curso Aula 09 Aula 11 Meu github: https://github.com/toticavalcanti Documentação oficial do TensorFlow: https://www.tensorflow.org/ Link para o notebook da aula: notebook-da-aula Se gostarem do conteúdo dêem um joinha 👍 na […]
Análise de sentimento com Flume e Twitter TERCEIRA PARTE Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti CONTINUANDO COM A CONSTRUÇÃO DA APLICAÇÃO DE ANÁLISE DE SENTIMENTO. COMO VAMOS UTILIZAR O HIVE, VAMOS CONHECER UM POUCO SOBRE ELE HIVE O HIVE É UM SISTEMA DE DATA WAREHOUSE OPENSOURCE, USADO PARA CONSULTAR […]
Aula 11 – Scikit-Learn – Persistência do modelo com Joblib Voltar para página principal do blog Todas as aulas desse curso Aula 10 Aula 12 Link do meu Github com o script dessa aula: Download do script da aula Link da documentação oficial do Sklearn: […]
Certificação Hortonworks Hadoop FS – Certificação HDP hortonworks Simulado da prova de certificação HDP Hortonworks TAREFA 09 Tabelas particionadas Hive Escreva uma consulta Hive em um arquivo chamado /home/horton/solutions/weather_partitioned.hive que satisfaça os seguintes critérios: Defina uma nova tabela Hive chamada weather_partitioned que tenha o mesmo esquema da tabela sfo_weather A tabela é particionada nas colunas […]
Aula 11 – Tensor Flow – Redes Neurais – Variables e Placeholders Voltar para página principal do blog Todas as aulas desse curso Aula 10 Aula 11 (Ainda não disponível) Meu github: https://github.com/toticavalcanti Documentação oficial do TensorFlow: https://www.tensorflow.org/ Link para o notebook da aula: notebook-da-aula Se gostarem […]
Análise de sentimento com Flume e Twitter QUARTA PARTE Link da documentação oficial do Hadoop: http://hadoop.apache.org/ Link do meu Github: https://github.com/toticavalcanti CONTINUANDO COM A CONSTRUÇÃO DA APLICAÇÃO DE ANÁLISE DE SENTIMENTO. CONSTRUÇÃO DO SCRIPT PYSPARK PARA A ANÁLISE FOI UTILIZADO O SPARK, UMA TECNOLOGIA DE COMPUTAÇÃO DISTRIBUÍDA EM CLUSTER, EXTREMAMENTE RÁPIDA. EXISTEM MUITOS MÉTODOS E […]
Aula 12 – Scikit-Learn – Reconhecimento facial com eigenfaces e SVMs Voltar para página principal do blog Todas as aulas desse curso Aula 11 Aula 13 Script dessa aula: Download do script da aula Documentação oficial do Sklearn: https://scikit-learn.org/ Se gostarem do conteúdo dêem um joinha 👍 na página do […]