Certificação Hortonworks Hadoop FS – Certificação HDP hortonworks

Simulado da prova de certificação HDP Hortonworks

TAREFA 03

Analisando dados usando Pig

  1. Escreva um script Pig e salve na máquina cliente como /home/horton/solutions/cleaned_total.pig que calcula o número de linhas nos arquivos /user/horton/flightdelays_clean no HDFS. Armazene a saída do seu script em um novo diretório no HDFS chamado cleaned_total
  2. A coluna Dest é o código do aeroporto de destino onde termina o voo. Escreva um script Pig e salve na máquina cliente como /home/horton/solutions/denver_total.pig que calcula o número de linhas nos dados /user/horton/flightdelays_clean onde o campo Dest é igual ao código do aeroporto de Denver “DEN”. Armazene a saída do seu script em um novo diretório no HDFS chamado denver_total
  3. A coluna ArrDelay é o número de minutos que um voo atrasou. Escreva um script Pig e salve na máquina cliente como /home/horton/solutions/denver_late.pig que conta o número de voos cujo Dest é o aeroporto “DEN” que atrasou 60 minutos ou mais. Armazene a saída do seu script em um novo diretório no HDFS chamado denver_late

Script:

-- Carrega flightdelays_clean em a
a = load 'flightdelays_clean';
-- Agrupa para poder fazer o mapreduce e salva em b
b = group a all;
-- Faz a contagem das linha e salva em c
c = foreach b generate COUNT(a);
-- Armazena o resultado da contagem no arquivo cleaned_total
store c into 'cleaned_total';

Obrigado

Até a próxima

Aula 05 – Tarefa 03 do simulado da prova de certificação HDP Hortonworks

About The Author
-

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>