Certificação Hortonworks Hadoop FS – Certificação HDP hortonworks
Simulado da prova de certificação HDP Hortonworks
TAREFA 06
Analisando dados com o Hive
Escreva uma consulta em HiveQL e salve as consultas em um único arquivo de texto chamado /home/horton/solutions/flightdelays.hive para cada uma das tarefas abaixo:
- Calcule o arrdelay médio dos voos que desembarcam em Denver (dest é igual a “DEN”)
- Calcule o arrdelay médio de voos onde a origem é LAX e o dest é SFO
- Determine qual aeroporto de destino teve o arrdelay médio mais alto
Script
Passo 1.
select avg(arrdelay) from flightdelays where dest = 'DEN';
Resultado é 7.26 minutos
Passo 2.
select avg(arrdelay) from flightdelays where origin = 'LAX' and dest = 'SFO';
Resulto é 62.5 minutos
Passo 3.
from flightdelays select dest, avg(arrdelay) as delay group by dest order by delay asc;
NOTA: Existem muitas maneiras de encontrar o arrdelay mais alto, mas a resposta é “SFO” com um valor de cerca de 55 minutos.