Certificação Hortonworks Hadoop FS – Certificação HDP hortonworks
Simulado da prova de certificação HDP Hortonworks
TAREFA 03
Analisando dados usando Pig
- Escreva um script Pig e salve na máquina cliente como /home/horton/solutions/cleaned_total.pig que calcula o número de linhas nos arquivos /user/horton/flightdelays_clean no HDFS. Armazene a saída do seu script em um novo diretório no HDFS chamado cleaned_total
- A coluna Dest é o código do aeroporto de destino onde termina o voo. Escreva um script Pig e salve na máquina cliente como /home/horton/solutions/denver_total.pig que calcula o número de linhas nos dados /user/horton/flightdelays_clean onde o campo Dest é igual ao código do aeroporto de Denver “DEN”. Armazene a saída do seu script em um novo diretório no HDFS chamado denver_total
- A coluna ArrDelay é o número de minutos que um voo atrasou. Escreva um script Pig e salve na máquina cliente como /home/horton/solutions/denver_late.pig que conta o número de voos cujo Dest é o aeroporto “DEN” que atrasou 60 minutos ou mais. Armazene a saída do seu script em um novo diretório no HDFS chamado denver_late
Script:
-- Carrega flightdelays_clean em a
a = load 'flightdelays_clean';
-- Agrupa para poder fazer o mapreduce e salva em b
b = group a all;
-- Faz a contagem das linha e salva em c
c = foreach b generate COUNT(a);
-- Armazena o resultado da contagem no arquivo cleaned_total
store c into 'cleaned_total';