Curso de Data Science
Aula 01 – Data Science – R – Conhecendo a plataforma Kaggle.
O que é o Kaggle?
É uma plataforma fundada em 2010 para competições de modelagem preditiva e analítica.
Empresas e pesquisadores postam seus dados e estatísticas para que mineradores, analistas e cientistas de dados de todo o mundo possam competir para produzir os melhores modelos.
A Kaggle também organiza competições de recrutamento em que os cientistas de dados competem por uma chance de entrevistar empresas líderes em ciência de dados como Facebook, casinos where you can play blackjack online for fun, Winton Capital e Walmart.
Foi comprada em 8 de março de 2017 pelo google.
COMPETIÇAO DO CASO TITANIC
- O naufrágio do Titanic é um dos naufrágios mais trágicos da história.
- O navio afundou após colidir com um iceberg, em 15 de abril de 1912,na sua viagem inaugural, matando 1502 de 2224 passageiros e tripulação.
- Essa tragédia chocou a comunidade internacional e levou a melhores regulamentações de segurança para os navios.
- Razões que levaram a tantas perdas de vidas:
- Não havia bastantes barcos salva-vidas para todos;
- Embora houvesse algum elemento de sorte envolvido, alguns grupos de pessoas eram mais propensos a sobreviver (mulheres, crianças e a classe alta) do que outros;
Neste desafio, a proposta é analisar quais tipos de pessoas poderiam sobreviver, aplicando as ferramentas de aprendizado de máquina para prever quais passageiros sobreviveram à tragédia.
Pré-requisitos para começar:
- Baixe e instale o Rstudio versão FREE;
- Agora baixe os arquivos necessários nesse link:
https://www.kaggle.com/c/titanic/data
Os arquivos são:
- gender_submission.csv
- test.csv
- train.csv
TREINAMENTO E TESTE
- O treinamento tem como objetivo apresentar ao classificador exemplos que o farão conhecer e aprender sobre a base de dados.
- A aplicação de testes possibilita a avaliação da performance.
- Existem várias formas de dividir os dados em um conjunto de treinamento e outro de teste (holdout, testeK-Fold, Cross Validation, etc).
- O training set é usado para treinar o modelo.
- O test set para validar.
Obrigado e até a próxima.