Autor

dev

Browsing

Instituto Atlântico no Kaggle

Em junho de 2018 uma das nossas equipes de Data Science teve a oportunidade de participar de uma forma diferente de capacitação profissional: um breve período em uma competição no Kaggle, a maior rede de cientistas de dados. O desafio consistia em construir um modelo matemático capaz de estimar as probabilidades dos clientes atrasarem o pagamento de alguma parcela para determinados empréstimos. Para tal fim, os competidores dispunham de dados sobre a renda do cliente, seu círculo social, suas condições de moradia, seus empréstimos anteriores, balanços mensais dos seus cartões de crédito dentre várias outras informações. Com tantos dados, as possibilidades de extração de características sobre os clientes são praticamente ilimitadas: Quantos empréstimos abertos o cliente tem? Qual o tamanho da dívida em relação à sua renda? Qual a magnitude da anuidade em relação à dívida? Quanto o cliente costuma pagar aos bancos por mês e quanto isso representa levando…

DataPrep em projetos de Machine Learning

Nos últimos anos o uso de técnicas de Machine Learning tem gerado enormes benefícios a empresas de diversos segmentos, seja através de análises descritivas, preditivas ou prescritivas que utilizam dados históricos para identificar padrões e anomalias. No entanto, com a rápida proliferação de tecnologias, modelos e métodos, um aspecto fundamental deste tipo de análise tem sido negligenciado, a qualidade dos dados. Não é de hoje que a expressão “lixo entra, lixo sai” tem sua importância em analytics. Contudo, quando se fala em métodos de Machine Learning o problema se torna ainda mais crítico, seja para dados de treinamento do modelo ou novos dados que são utilizados para fazer previsões futuras. A complexidade crescente dos problemas tratados em projetos de Machine Learning demanda cada vez mais não apenas mais dados, mas também dados mais diversos e compreensíveis, e com isso surgem os problemas de qualidade. Uma pesquisa publicada pelo Harvard Business…