Curso de Data Science
Aula 05 – Data Science – R – Caso do Titanic – Kaggle
Continuando com o problema do Titanic proposto pelo Kaggle.
Na última aula foi criado o campo Survived no titanic.test e atribuído valor NA ao campo, em todos os registros do titanic.test, agora vamos juntar o titanic.train e o titanic.test e atribuir a variável titanic.full.
#Junta as bases de teste e treinamento
titanic.full <- rbind(titanic.train, titanic.test)
Vamos olhar para o campo Embarked no conjunto titanic.full
table(titanic.full$Embarked)
Saída:
C Q S
2 270 123 914
Dois registros não tem informação sobre o campo Embarked, vamos pegar esses dois registros e dizer que essas pessoas embarcaram em S (Southampton), já que a maioria das pessoas embarcaram nessa cidade.
#Filtra a base pelo campo Embarked, pegando só os que estão em branco e
#faz um replace com 'S'
titanic.full[titanic.full$Embarked == '', "Embarked"] <- 'S'
Agora vamos verificar o campo Age, mas vamos fazer isso na próxima aula.