Curso de Data Science
Aula 07 – Data Science – R – Caso do Titanic – Kaggle
Continuando com o problema do Titanic proposto pelo Kaggle.
Já limpamos os campos Embarked e Age, agora vamos limpar o campo Fare.
Verificação agora do campo Fare (tarifa):
table(is.na(titanic.full$Fare))
Saída:
FALSE TRUE
1308 1
Ou seja, 1 registro não tem essa informação.
Vamos preencher o registro que falta essa informação com a mediana das tarifas.
#Pega a mediana das tarifas do conjunto total (titanic.full) desconsiderando
#os registros sem essa informação e atribuindo a variável fare.median
fare.median <- median(titanic.full$Fare, na.rm = TRUE)
#preenche os registros sem a informação de Fare com a mediana
titanic.full[is.na(titanic.full$Fare), “Fare"] <- fare.median
Rodando novamente:
table(is.na(titanic.full$Fare))
Saída:
FALSE
1309
Agora todos os registros tem a informação Fare.