Pular para o conteúdo principal
InicioBlogCiência de dados

Competições da Kaggle: O guia completo

Saiba tudo sobre as competições da Kaggle. Descubra o que são, como ter sucesso e quando e por que você deve fazê-las.
abr. de 2024  · 18 min leer

Kaggle
Índice

  • O que são as competições da Kaggle?
  • Vale a pena participar das competições da Kaggle?
  • Quando você deve participar de uma competição de ciência de dados?
  • O que são as competições da Datacamp?
  • Como encontrar a competição da Kaggle certa para o seu nível? (De iniciantes a habilidades avançadas)
  • Dicas para a competição do Kaggle
    • Escolha uma linguagem de programação
    • Participe de competições com a tag "Getting Started" (Introdução)
    • Não use exclusivamente o Kaggle
    • Foco no aprendizado
    • Estudar outros cadernos públicos
    • Leia as regras da competição
    • Compartilhe suas soluções
    • Faça este curso no DataCamp
  • O que são classificações do Kaggle?
    • Medalhas do Kaggle
      • Medalhas de competição
      • Medalhas do conjunto de dados
      • Medalhas de notebook
      • Medalhas de discussão
    • Níveis de desempenho
      • Novato
      • Colaborador
      • Especialista
      • Mestre
      • Grão-mestre
    • Quanto tempo leva para passar de colaborador a especialista?
  • Dicas de classificação do Kaggle
  • Conclusão

O que são as competições da Kaggle?  

Agora que já abordamos os conceitos básicos do Kaggle, como notebooks e conjuntos de dados, podemos abordar as perguntas mais frequentes sobre as competições do Kaggle: Quem os está organizando? Posso competir? Por que eu deveria competir? 

Essa última pergunta é a chave. As competições da Kaggle são baseadas em tarefas desafiadoras de aprendizado de máquina organizadas pela própria Kaggle ou por outras grandes empresas, organizações e universidades. Nessas competições, os usuários competem com outros cientistas de dados na plataforma para enviar previsões mais precisas que são feitas pelos modelos de aprendizado de máquina que eles criam durante a competição. Após o envio, é calculada automaticamente uma pontuação que reflete o grau de funcionamento do modelo.

É um equívoco comum pensar que é necessário fazer cursos de probabilidade e estatística ou ter um conhecimento profundo de determinadas bibliotecas de aprendizado de máquina antes de participar dessas competições. A verdade é que você pode e deve participar das competições da Kaggle, independentemente do seu nível. As competições não são exclusivas para especialistas, e todos podem adquirir experiências valiosas com elas e até mesmo aproveitá-las para criar um portfólio de ciência de dados.

Vale a pena participar das competições da Kaggle?

  • Independentemente de sua experiência em ciência de dados, você pode aprimorar suas habilidades participando de competições nesse campo em constante crescimento e desenvolvimento. Essas competições de ciência de dados o desafiarão dentro de suas próprias capacidades. Quanto mais tempo e esforço você dedicar às competições de ciência de dados do Kaggle ou do DataCamp, mais rapidamente você se sentirá confortável com as bibliotecas e linguagens de programação que usa.
  • Você conquistará sua classificação entre os cientistas de dados de todos os níveis em todo o mundo.
  • Você terá a oportunidade de analisar as soluções vencedoras e ter acesso a diferentes abordagens para o mesmo problema. Isso facilitará a análise das tarefas desafiadoras a partir de diferentes perspectivas.
  • Você receberá conjuntos de dados de alta qualidade. Isso o ajudará a se concentrar totalmente na solução, pois você não precisará pensar em limpar os dados, coletar dados relacionados ou criar um conjunto de dados consistente e bem marcado.
  • Você terá a chance de participar de uma discussão técnica com os vencedores das competições e outros cientistas de dados de alto nível. Isso ajudará a expandir sua rede.
  • Trabalhar em problemas reais o motivará e lhe dará uma visão do trabalho diário e das responsabilidades de um cientista de dados.
  • Há um claro incentivo financeiro.

Participar de competições do Kaggle ou do DataCamp definitivamente vale a pena. Independentemente do seu nível de conhecimento, você certamente encontrará pelo menos um dos benefícios listados que seja relevante para você. Há uma grande variedade de competições de ciência de dados, e novas competições são publicadas regularmente. Mesmo que você não esteja interessado nelas no momento, é recomendável acompanhar as competições que são publicadas, pois pelo menos uma delas provavelmente se tornará relevante para você em algum momento no futuro.

Quando você deve participar de uma competição de ciência de dados?

Antes de participar de uma competição, leve em consideração os três critérios a seguir:

  1. A quantidade de tempo e trabalho gastos nessa competição será equilibrada com o aprimoramento que você poderá obter com ela?
  2. Qual é o incentivo financeiro por trás de uma vitória, e vale a pena investir seu tempo?
  3. O trabalho, a pesquisa e a contribuição da concorrência serão satisfatórios para você como profissional de dados?

Alguns cientistas de dados geralmente ficam felizes em participar de qualquer competição apenas para expandir sua rede de contatos e sua prática. Entretanto, a maioria das pessoas precisa avaliar os critérios acima para decidir se uma competição valerá a pena ou não. Você também precisará encontrar seus próprios critérios e considerá-los antes de participar de uma competição, sempre levando em conta que, quanto mais competições você participar, mais benefícios e experiências de aprendizado poderá obter da Kaggle.

O que são as competições da Datacamp?

As Competições DataCamp e as Competições Kaggle têm muitas semelhanças. Assim como no Kaggle, no DataCamp você tem a chance de examinar os notebooks compartilhados publicamente, e as competições do DataCamp também têm prêmios. Se for classificado nas competições, você ganhará uma assinatura premium de 1 ano do DataCamp e também poderá ganhar prêmios em dinheiro. O DataCamp também tem um ambiente muito semelhante ao do Kaggle, no qual você poderá se reunir com outros cientistas de dados de todos os níveis por meio das páginas de discussão.

No entanto, há algumas diferenças importantes entre as competições da Kaggle e da Datacamp. Por um lado, as competições da Kaggle se concentram mais no aprendizado de máquina, enquanto o DataCamp se concentra em testar suas habilidades analíticas, de narrativa e de visualização em um contexto mais amplo. Por outro lado, você tem uma chance maior de vencer as competições do DataCamp, pois essa é uma plataforma emergente com relativamente poucos participantes.

De qualquer forma, você nunca deve participar das competições com a única intenção de ganhar. Em vez disso, você aproveitará muito mais se se concentrar no progresso e, nesse sentido, o DataCamp também oferece grandes possibilidades de aprimoramento, das quais você pode facilmente tirar proveito.

Como encontrar a competição da Kaggle certa para o seu nível? (De iniciantes a habilidades avançadas)

O Kaggle permite que você filtre as competições por título ou usando palavras-chave, para que seja fácil encontrar aquelas que mais lhe interessam. É tão fácil quanto digitar o título ou as palavras-chave na barra de pesquisa.

Competition Search Kaggle
Figura 5.1: Pesquisa de concorrência


Você também pode filtrá-las por tags de concorrência.

Filtro de competição do Kaggle

Figura 5.2: Filtragem de concorrência

Além de títulos, palavras-chave e tags, há três outros filtros principais: "Status", "Prêmios e reconhecimentos" e "Categorias".

Status:

  • Monetário: Os concursos com essa tag geralmente são compartilhados por empresas grandes e conhecidas. Se for classificado nessas competições, você ganhará um prêmio em dinheiro. Os prêmios mais baixos estão entre US$ 5.000 e US$ 10.000. As competições com prêmios entre US$ 50.000 e US$ 100.000 são as mais comuns. Os maiores prêmios chegam a 1 milhão de dólares.
  • Medalhas: Você recebe medalhas da Kaggle como recompensa, dependendo da pontuação alcançada na competição. Com essas medalhas, sua classificação aumenta. A classificação do Kaggle é explicada em detalhes na seção 6.
  • Outros: Essas competições premiam os participantes com produtos da Kaggle, como camisetas ou adesivos.

Categorias:

  • Em destaque: Essas competições geralmente são publicadas por grandes empresas, organizações e até mesmo governos. Seus prêmios em dinheiro são muito maiores do que os oferecidos em outras categorias.
  • Pesquisa: Essas são competições com temas de pesquisa. Há pouco ou nenhum prêmio em dinheiro.
  • Primeiros passos: Isso não inclui nenhum prêmio. Em geral, são competições criadas para fins educacionais. No final desta seção, você encontrará um exemplo de concorrência com a tag "Getting Started" (Introdução). Você verá não apenas o exemplo, mas também um tutorial sobre como usar um notebook e como enviar os resultados, entre outras etapas relevantes.
  • Playground: Essas competições são adequadas para aqueles que desejam ganhar experiência e continuar aprimorando suas habilidades. Os prêmios geralmente são mercadorias da Kaggle (como camisetas e adesivos). Essas competições costumam ser divertidas e gamificadas.
  • Em sala de aula: Essas competições geralmente são organizadas por universidades e seus participantes são os alunos de aprendizado de máquina. Seu objetivo é envolver e inspirar esses alunos.
  • Análises: Essas são competições de análise de dados.
  • Simulações: O que diferencia esses desafios dos desafios tradicionais de aprendizado de máquina supervisionado no Kaggle são os tipos de competições com tarefas de aprendizado por reforço. Os concorrentes desenvolvem modelos e deixam seus modelos competirem em um ambiente simulado.

Além dos filtros principais, você também tem alguns outros que permitem classificar as competições por parâmetros adicionais, como "Hotness", "Recently Launched", "Closing Soon", "Reward" e "Total Teams".

Figura 5.3: Classificação da concorrência

Dicas para a competição do Kaggle

1. Escolha uma linguagem de programação

Python e R são as linguagens de programação usadas com mais frequência no campo da ciência de dados, especialmente quando se trata de visualizações e tarefas de aprendizado de máquina. Se estiver se perguntando sobre o MATLAB, você pode usá-lo para tarefas de ciência de dados em seu computador local, mas os notebooks do Kaggle suportam apenas Python, R e Julia. 

Se você usar uma linguagem de programação diferente, talvez seja muito mais fácil realizar algumas tarefas, mas o que torna uma linguagem de programação poderosa é a comunidade e o suporte da biblioteca de código aberto por trás dela. Você precisaria considerar que (ao usar uma das linguagens mais populares) qualquer biblioteca que você importar para o seu computador local também poderá ser importada para o Kaggle.

Se você for um iniciante, Python ou R são ótimos lugares para começar e continuar até se desenvolver no campo. Lembre-se de que muitos notebooks compartilhados no Kaggle são escritos em Python e, se você precisar estudá-los, poderá fazê-lo confortavelmente se conhecer a linguagem.

2. Participe de competições com a tag "Getting Started" (Introdução)

O Getting Started é perfeito para iniciantes. Se você participar dessas competições e analisar os notebooks compartilhados por outras pessoas, aprenderá muito, e de forma relativamente rápida.

Aqui estão algumas competições de introdução que recomendamos, dependendo de seu conhecimento:

3. Não use exclusivamente o Kaggle 

Depois de experimentar uma das competições de nível básico listadas acima, você terá um pouco mais de experiência e talvez seja bom procurar competições em plataformas diferentes. 

No DataCamp, você pode participar de competições de ciência de dados, como "Projetando uma estratégia promocional para uma empresa de bebidas", o que exigirá que você faça algumas pesquisas e vá além de suas capacidades. O que torna essa competição especial é que ela não se concentra apenas no aprendizado de máquina, mas também desafia os participantes a aprimorar significativamente suas habilidades de análise, narração e visualização. Você pode ver os notebooks compartilhados para essa competição na guia de inscrições.

Para maximizar suas chances de sucesso e aproveitar ao máximo essa competição, é recomendável que você conclua os seguintes cursos primeiro:

4. Foco no aprendizado

O prêmio em dinheiro nas competições da Kaggle é significativo. Isso pode tentá-lo a se desviar de sua meta de aprendizado. Não se concentre no prêmio, mas priorize o aprendizado e o aprimoramento. Quando tiver experiência suficiente, você terá tempo para pensar em como chegar à posição superior.

5. Estudar outros cadernos públicos

O estudo dos cadernos compartilhados nas competições o ajudará a aprender maneiras diferentes de resolver o mesmo problema.

6. Leia as regras da competição

Leia as informações e as regras da competição antes de decidir participar e certifique-se de que as entendeu completamente antes de participar da competição.

7. Compartilhe suas soluções

Compartilhar suas soluções aumentará sua interação com outros cientistas de dados e você poderá obter feedback de outras pessoas. Ao abrir tópicos de discussão sobre suas soluções, você ganhará medalhas mais rapidamente e poderá aumentar rapidamente sua classificação na Kaggle. Mais informações sobre a classificação do Kaggle são fornecidas na seção 6.

8. Faça este curso no DataCamp

O curso Winning a Kaggle Competition in Python do DataCamp ensinará a você como abordar e estruturar qualquer inscrição em uma competição de ciência de dados. Ao fazer este curso, você aprenderá todas as técnicas fundamentais usadas em competições, por exemplo, como validar modelos de aprendizado de máquina e como evitar o overfitting. 

O que são classificações do Kaggle?

O sistema de classificação do Kaggle é uma tabela de classificação ao vivo que classifica cientistas de dados de todos os níveis de especialização, que fazem diferentes tipos de contribuições para o Kaggle, desde comentários até a participação em competições do Kaggle. 

Além da tabela de classificação principal, há quatro outros tipos diferentes de classificações para: "Competição", "Conjunto de dados", "Notebook" e "Discussão". Você pode ver seu nível em cada uma dessas categorias em seu próprio perfil. À medida que você ganha medalhas nas categorias acima, sua classificação e seu nível aumentam. Lembre-se de que as medalhas são obtidas por meio de classificações e votos positivos na competição.

Há cinco níveis principais no Kaggle: "Novato", "Colaborador", "Especialista", "Mestre" e "Grão-Mestre". Até o momento, há apenas 241 cientistas de dados no nível "Kaggle Grandmaster", que é a liga principal. Isso prova como é difícil fazer parte dela. Quanto ao restante, no momento há 1.668 mestres, 7.206 especialistas, 64.668 colaboradores e 92.747 novatos. O nível em que você se encontra, assim como o número de medalhas que você ganha, será muito vantajoso para o avanço de sua carreira.

Medalhas do Kaggle

As medalhas representam uma conquista singular em uma categoria. Essa conquista pode ser um ótimo resultado em uma competição, um notebook popular, um conjunto de dados útil ou um comentário perspicaz, para citar alguns exemplos. Suas conquistas são padronizadas e um sistema de classificação é criado por meio de comparações com as contribuições de outros cientistas de dados.

Medalhas de competição

As medalhas de competição são determinadas por sua classificação nas competições. Lembre-se de que você não ganha medalhas de competições nas categorias InClass, Playground e Getting Started.

Em competições com equipes de 0 a 99, ficar entre os 40% melhores lhe dará uma medalha de bronze. Você receberá uma medalha de prata se estiver entre os 20% melhores e uma medalha de ouro se estiver entre os 10% melhores. À medida que o número de equipes aumenta, a distribuição de medalhas também muda. Por exemplo, ao participar de uma competição com 1000 ou mais equipes, os 10% melhores receberão uma medalha de bronze, os 5% melhores receberão uma medalha de prata e as 10 melhores equipes receberão uma medalha de ouro.

Medalhas do conjunto de dados

Quanto mais populares forem os conjuntos de dados compartilhados, mais votos positivos você receberá de outras pessoas. Suas medalhas de conjunto de dados são determinadas pelo número desses votos positivos. Os conjuntos de dados com 5 a 20 votos recebem uma medalha de bronze, os conjuntos de dados com 20 a 50 votos recebem uma medalha de prata e os conjuntos de dados com 50 votos ou mais recebem uma medalha de ouro. Os votos dados por usuários iniciantes não são incluídos no cálculo.

Medalhas de notebook

As mesmas regras das medalhas de conjunto de dados se aplicam às medalhas de notebook. Os notebooks com 5 a 20 votos recebem uma medalha de bronze, os notebooks com 20 a 50 votos recebem uma medalha de prata e os notebooks com 50 votos ou mais recebem uma medalha de ouro. Os votos dados por usuários iniciantes não são incluídos no cálculo. 

Medalhas de discussão

As medalhas de discussão são obtidas calculando-se os votos líquidos, que são obtidos subtraindo-se os votos negativos dos votos positivos. Os votos feitos em suas postagens antigas e os votos de níveis iniciantes não são incluídos no cálculo. Um voto líquido é suficiente para obter uma medalha de bronze. Se você obtiver entre 5 e 10 votos líquidos, receberá uma medalha de prata e, se obtiver 10 ou mais votos líquidos, receberá uma medalha de ouro.

Níveis de desempenho

Você recebe um nível de desempenho para cada categoria de classificação ("Competições", "Conjuntos de dados", "Notebooks" e "Discussões"). Seu nível mais alto em todas as categorias é exibido como o nível principal em seu perfil.

Novato

Você recebe esse nível automaticamente ao se registrar na plataforma.

Colaborador

As condições para se tornar um "Contribuinte" são as seguintes:

  • Executar um notebook ou script
  • Fazer um envio de competição ou tarefa
  • Faça um comentário
  • Dê um voto positivo

Especialista

Para se tornar um "Expert", você deve ganhar pelo menos 2 medalhas de bronze em competições; pelo menos 3 medalhas de bronze em conjuntos de dados; pelo menos 5 medalhas de bronze em notebooks; e pelo menos 50 medalhas de bronze em discussões.

Mestre

Para alcançar o nível "Master", você deve ganhar pelo menos 1 medalha de ouro e 2 medalhas de prata em competições; pelo menos 1 medalha de ouro e 4 medalhas de prata em conjuntos de dados; pelo menos 10 medalhas de prata em notebooks e pelo menos 200 medalhas em discussões, das quais pelo menos 50 precisam ser medalhas de prata.

Grão-mestre

Para se tornar um "Grandmaster", você precisa ganhar pelo menos 5 medalhas de ouro em competições, das quais pelo menos 1 precisa ser uma medalha de ouro solo; pelo menos 5 medalhas de ouro e 5 medalhas de prata em conjuntos de dados; pelo menos 15 medalhas de ouro em notebooks; e pelo menos 500 medalhas em discussões, das quais 50 precisam ser medalhas de ouro.

Quanto tempo leva para passar de colaborador a especialista?

Tudo depende do quanto você persevera e contribui para a Kaggle. Em média, leva cerca de um ano para passar de colaborador a especialista, de acordo com essa análise. Esse prazo depende dos diferentes níveis de esforço que cada cientista de dados está disposto a investir no Kaggle. Por exemplo, se você estiver investindo tempo em aprender e melhorar, pode levar mais tempo para obter o emblema de especialista, mas se estiver apenas tentando ganhar o máximo de medalhas o mais rápido possível, isso pode levar um período de tempo mais curto.

Em geral, é melhor investir tempo no progresso real e não apenas na conquista de medalhas. Para aprimorar seus conhecimentos e habilidades e progredir em sua carreira, o que conta é a experiência real. 

Dicas de classificação do Kaggle

Conforme mencionado anteriormente, seu objetivo deve ser usar o Kaggle ou o DataCamp para expandir sua rede de contatos, aprimorar suas habilidades e aprender o máximo que puder.

No entanto, ganhar medalhas também é valioso, é claro, e como as condições para ganhar medalhas também dependem de números altos de votos positivos, você deve considerar aumentar o número de votos positivos que recebe. As dicas a seguir o ajudarão a aumentar sua contagem de medalhas:

  • Não peça votos positivos. Com o esforço de fornecer informações úteis, os votos positivos devem vir naturalmente. Na verdade, pedir votos positivos às pessoas pode ser contraproducente e provavelmente fará com que você seja rejeitado.
  • Você poderá receber mais votos positivos se der crédito aos autores. No entanto, use essas informações de forma seletiva e somente quando elas agregarem valor real à publicação, para não correr o risco de spam.
  • Lembre-se: concentre-se apenas no aprimoramento de suas habilidades e as medalhas virão.

 Os níveis e as medalhas do Kaggle são manifestações tangíveis de suas conquistas reais. À medida que você progride, ver suas conquistas se materializarem provavelmente o motivará.

Conclusão

Competir em competições de ciência de dados do Kaggle ou do DataCamp é divertido e uma das ferramentas para motivá-lo em sua jornada de ciência de dados. Embora existam cientistas de dados extraordinários que determinam os prêmios das competições em seus modelos de renda, o objetivo da maioria dos cientistas de dados é aprender o máximo possível com as competições e ganhar experiência real. 

O elemento mais útil aqui é a ambição de aumentar as classificações da concorrência. Com essa ambição, os cientistas de dados podem examinar os notebooks de outras pessoas e estudar diferentes códigos e estratégias. As sugestões que seriam dadas ao seu código após a competição podem até ser consideradas como um estilo de orientação gratuita.

Para obter um passo a passo de como analisar um conjunto de dados para uma competição, confira nosso Tutorial de competição do Kaggle.  

Temas
Relacionado

blog

Um roteiro de ciência de dados para 2024

Você quer começar ou crescer no campo da ciência de dados? Este roteiro de ciência de dados ajuda você a entender e a começar no cenário da ciência de dados.
Mark Graus's photo

Mark Graus

10 min

blog

As 32 principais perguntas e respostas da entrevista da AWS para 2024

Um guia completo para explorar as perguntas básicas, intermediárias e avançadas das entrevistas da AWS, juntamente com perguntas baseadas em situações do mundo real. Ele abrange todas as áreas, garantindo uma estratégia de preparação completa.
Zoumana Keita 's photo

Zoumana Keita

15 min

blog

O guia completo da certificação Docker (DCA) para 2024

Libere seu potencial no Docker e na ciência de dados com nosso guia abrangente. Explore as certificações do Docker, os caminhos de aprendizado e as dicas práticas.
Matt Crabtree's photo

Matt Crabtree

8 min

tutorial

Tutorial do Chroma DB: Um guia passo a passo

Com o Chroma DB, você pode gerenciar facilmente documentos de texto, converter texto em embeddings e fazer pesquisas de similaridade.
Abid Ali Awan's photo

Abid Ali Awan

10 min

tutorial

Guia do cientista de dados para processamento de sinais

Descubra insights acionáveis ocultos em dados de sinais complexos filtrando ruídos, escolhendo visualizações apropriadas, encontrando padrões no domínio do tempo e da frequência e muito mais usando o processamento de sinais.
Amberle McKee's photo

Amberle McKee

25 min

tutorial

Tutorial de introdução ao JupyterLab

Neste artigo, apresentaremos a você o JupyterLab, um dos IDEs mais populares para ciência de dados.
Javier Canales Luna's photo

Javier Canales Luna

7 min

See MoreSee More