Curso de Data Science
Aula 06 – Data Science – R – Caso do Titanic – Kaggle
Continuando com o problema do Titanic proposto pelo Kaggle.
Agora que o campo Embarked está devidamente limpo, vamos olhar agora para o campo Age.
Rodando:
table(is.na(titanic.full$Age))
Saída:
FALSE TRUE
1046 263
Existem 263 registros sem a informação age
Como contornar esse problema?
#Pega a mediana do conjunto total (titanic.full) desconsiderando
#os registros sem essa informação e atribuindo a variável age.median
age.median <- median(titanic.full$Age, na.rm = TRUE)
Saída:
[1] 28
Agora é só preencher os registros que não tem essa informação com a mediana das idades.
#preenche os registros sem a informação de Age com a mediana
titanic.full[is.na(titanic.full$Age), "Age"] <- age.median
Rodando novamente:
table(is.na(titanic.full$Age))
Saída:
FALSE
1309
Agora todos os registros tem a informação Age.
Na próxima aula vamos olhar o campo Fare e ver o que podemos fazer pra limpá-lo.