Certificação Hortonworks Hadoop FS – Certificação HDP hortonworks
Simulado da prova de certificação HDP Hortonworks
TAREFA 05
Use HCatalog com Pig
Escreva um script Pig e salve na máquina local em /home/horton/solutions/flightdelays_nonzero.pig que satisfaça todos os seguintes critérios:
- Execute uma consulta Pig usando o Tez como o mecanismo(engine) de execução
- Carregue os dados da tabela flightdelays criada no Hive usando HCatalog
- Remova todas as linhas onde o arrdelay é menor ou igual a Zero.
- Ordene a saída de forma descendente pelo valor do campo arrdelay
- Armazene a saída em três arquivos separados por vírgula em um novo diretório no HDFS chamado /user/horton/flightdelays_nonzero
Script
-- Carrega o arquivo flightdelays na relação a
a = load 'flightdelays' using org.apache.hive.hcatalog.pig.HCatLoader();
--Filtra a pelo campo arrdelay maior que 0 (Zero)
b = filter a by arrdelay > 0;
--Use a cláusula PARALLEL para aumentar o paralelismo de um job
c = order b by arrdelay desc parallel 3;
--Armazena a relação c em '/user/horton/flightdelays_nonzero' separado por vírgula
store c into '/user/horton/flightdelays_nonzero' using PigStorage(',');
No shell linux execute o script com o seguinte comando,
verifique se está na mesma pasta do script:
pig -x tez -useHCatalog flightdelays_nonzero.pig