Categoria

Data Science

Categoria

Instituto Atlântico no Kaggle

Em junho de 2018 uma das nossas equipes de Data Science teve a oportunidade de participar de uma forma diferente de capacitação profissional: um breve período em uma competição no Kaggle, a maior rede de cientistas de dados. O desafio consistia em construir um modelo matemático capaz de estimar as probabilidades dos clientes atrasarem o pagamento de alguma parcela para determinados empréstimos. Para tal fim, os competidores dispunham de dados sobre a renda do cliente, seu círculo social, suas condições de moradia, seus empréstimos anteriores, balanços mensais dos seus cartões de crédito dentre várias outras informações. Com tantos dados, as possibilidades de extração de características sobre os clientes são praticamente ilimitadas: Quantos empréstimos abertos o cliente tem? Qual o tamanho da dívida em relação à sua renda? Qual a magnitude da anuidade em relação à dívida? Quanto o cliente costuma pagar aos bancos por mês e quanto isso representa levando…

DataPrep em projetos de Machine Learning

Nos últimos anos o uso de técnicas de Machine Learning tem gerado enormes benefícios a empresas de diversos segmentos, seja através de análises descritivas, preditivas ou prescritivas que utilizam dados históricos para identificar padrões e anomalias. No entanto, com a rápida proliferação de tecnologias, modelos e métodos, um aspecto fundamental deste tipo de análise tem sido negligenciado, a qualidade dos dados. Não é de hoje que a expressão “lixo entra, lixo sai” tem sua importância em analytics. Contudo, quando se fala em métodos de Machine Learning o problema se torna ainda mais crítico, seja para dados de treinamento do modelo ou novos dados que são utilizados para fazer previsões futuras. A complexidade crescente dos problemas tratados em projetos de Machine Learning demanda cada vez mais não apenas mais dados, mas também dados mais diversos e compreensíveis, e com isso surgem os problemas de qualidade. Uma pesquisa publicada pelo Harvard Business…

Data Science: entenda a importância dos dados para sua empresa

Data Science tem sido — e promete continuar sendo — cada vez mais importante no nosso cotidiano. Cada vez mais as nossas vidas têm se integrado ao enorme universo dos dados e isso envolve tanto a nossa esfera pessoal quanto a profissional. De acordo com relatório publicado pela Domo em 2017, mais da metade do tráfego online de todo o planeta vem de smartphones, e a previsão é de que, até 2020, aproximadamente 6,1 bilhões de pessoas terão acesso a um smartphone. Esta ciência impressionante é ainda mais válida hoje, visto que os números cresceram e tendem a continuar crescendo de forma exponencial nos próximos anos por meio da geração de dados estruturados — oriundos de arquivos .csv, bancos de dados relacionais e outros semelhantes — e não estruturados — como imagens, sons, vídeos e outros formatos. Apesar disso, ainda hoje, diversas companhias não se deram conta de que fazem parte dessa…