Curso de Data Science
Aula 08 – Data Science – R – Caso do Titanic – Kaggle
Continuando com o problema do Titanic proposto pelo Kaggle.
Agora que todos os registros tem a informação de Age, Embarked e Fare, vamos agora transformar algumas variáveis em variáveis categóricas, também conhecidas como qualitativas.
Exemplos de variáveis qualitativas (categóricas):
- escolaridade (1º, 2º, 3º graus)
- estágio da doença (inicial, intermediário, terminal)
- mês de observação (janeiro, fevereiro,…, dezembro)
#Tranforma PClass (1º, 2º, 3º classe) em variável qualitativa (ou categórica)
#(categorical casting)
titanic.full$Pclass <- as.factor(titanic.full$Pclass)
#Tranforma Sex (male, female) em variável qualitativa (ou categórica)
#(categorical casting)
titanic.full$Sex <- as.factor(titanic.full$Sex)
#Tranforma Embarked em variável qualitativa (ou categórica)
#(categorical casting)
titanic.full$Embarked <- as.factor(titanic.full$Embarked)
#Repopula a variável titanic.train com todas as correções feitas até agora
titanic.train <- titanic.full[titanic.full$IsTrainSet == TRUE,]
#Repopula a variável titanic.testcom todas as correções feitas até agora
titanic.test <- titanic.full[titanic.full$IsTrainSet == FALSE,]
#Tranforma Survived em variável qualitativa (ou categórica)
#(categorical casting) do training set
titanic.train$Survived <- as.factor(titanic.train$Survived)
Já que falamos de variáveis categóricas e usamos o as.factor( ), quero fazer uma observação.
As linhas no início do código:
#Lê o csv de treinamento
titanic.train <- read.csv(file = "train.csv", stringsAsFactors = FALSE, header = TRUE)
#Lê o csv de teste
titanic.test <- read.csv(file = "test.csv", stringsAsFactors = FALSE, header = TRUE)
O parâmetro stringsAsFactors = FALSE é porque o padrão do R é pegar todos os campos que são string e transformar em factor, ou seja,em variável categórica, como não é o que queríamos, usamos o stringsAsFactors = FALSE, para especificar, isto é, dizer ao interpretador R: “não quero nenhum campo lido do CSV como variável categórica.