Concursos Kaggle: La guía completa
Índice
- ¿Qué son los Concursos Kaggle?
- ¿Merece la pena participar en los concursos de Kaggle?
- ¿Cuándo debes participar en un concurso de ciencia de datos?
- ¿Qué son los concursos Datacamp?
- ¿Cómo encontrar la competición Kaggle adecuada para tu nivel? (De Principiantes a Habilidades Avanzadas)
- Consejos para el concurso Kaggle
- Elige un lenguaje de programación
- Participa en Concursos etiquetados con "Empezar"
- No utilices Kaggle exclusivamente
- Centrarse en el aprendizaje
- Estudia otros cuadernos públicos
- Lee las bases del concurso
- Comparte tus soluciones
- Haz este curso en DataCamp
- ¿Qué son las clasificaciones de Kaggle?
- Medallas Kaggle
- Medallas de competición
- Conjunto de datos Medallas
- Medallas para cuadernos
- Medallas de debate
- Niveles de rendimiento
- Novato
- Colaborador
- Experto
- Maestro
- Gran Maestro
- ¿Cuánto se tarda en pasar de Colaborador a Experto?
- Medallas Kaggle
- Consejos para la clasificación en Kaggle
- Conclusión
¿Qué son los Concursos Kaggle?
Ahora que hemos cubierto los aspectos básicos de Kaggle, como los cuadernos y los conjuntos de datos, podemos abordar las preguntas más frecuentes sobre las competiciones de Kaggle: ¿Quién los organiza? ¿Puedo competir? ¿Por qué debo competir?
Esta última pregunta es la clave. Los concursos Kaggle se basan en desafiantes tareas de aprendizaje automático organizadas por la propia Kaggle u otras grandes empresas, organizaciones y universidades. En estos concursos, los usuarios compiten con otros científicos de datos de la plataforma para presentar las predicciones más precisas realizadas por los modelos de aprendizaje automático que construyen durante el concurso. Tras el envío, se calcula automáticamente una puntuación que refleja lo bien que funciona su modelo.
Es un error común creer que es necesario hacer cursos de probabilidad y estadística o tener un conocimiento profundo de ciertas bibliotecas de aprendizaje automático antes de participar en estos concursos. La verdad es que puedes, y debes, participar en los Concursos Kaggle independientemente de tu nivel. Los concursos no son exclusivos de los expertos, y todo el mundo puede obtener una valiosa experiencia de ellos e incluso aprovecharlos para construir una cartera de ciencia de datos.
¿Merece la pena participar en los concursos de Kaggle?
- No importa lo experimentado que seas en ciencia de datos, puedes mejorar tus habilidades participando en concursos en este campo en continuo crecimiento y desarrollo. Estos concursos de ciencia de datos te desafiarán dentro de tus propias capacidades. Cuanto más tiempo y esfuerzo dediques a las competiciones de ciencia de datos Kaggle o DataCamp, más rápido te sentirás cómodo con las bibliotecas y lenguajes de programación que utilices.
- Ganarás tu clasificación entre los científicos de datos de todos los niveles en todo el mundo.
- Tendrás la oportunidad de revisar las soluciones ganadoras y acceder a distintos enfoques del mismo problema. Esto te facilitará el análisis de las tareas difíciles desde diferentes perspectivas.
- Se te proporcionarán conjuntos de datos de la máxima calidad. Esto te ayudará a centrarte por completo en la solución, porque no tendrás que estar pensando en limpiar los datos, recopilar datos relacionados o crear tú mismo un conjunto de datos coherente y bien etiquetado.
- Tendrás la oportunidad de participar en un debate técnico con los ganadores de los concursos y otros científicos de datos de alto nivel. Esto te ayudará a ampliar tu red.
- Trabajar en problemas reales te motivará y te dará una visión del trabajo diario y de las responsabilidades de un científico de datos.
- Existe un claro incentivo económico.
Participar en concursos Kaggle o DataCamp merece la pena, sin duda. Independientemente de tu nivel de experiencia, seguro que encuentras al menos una de las ventajas enumeradas relevante para ti. Hay una gran variedad de concursos de ciencia de datos, y se publican nuevos concursos con regularidad. Aunque no te interesen en este momento, es recomendable que sigas los concursos que se publican, ya que es probable que al menos uno sea relevante para ti en algún momento del futuro.
¿Cuándo debes participar en un concurso de ciencia de datos?
Antes de presentarte a un concurso, ten en cuenta los tres criterios siguientes:
- ¿Estará equilibrada la cantidad de tiempo y trabajo dedicados a esta competición con la mejora que puedes obtener de ella?
- ¿Cuál es el incentivo económico que hay detrás de una victoria, y merece la pena que le dediques tiempo?
- ¿El trabajo, la investigación y la contribución a la competición te resultarán satisfactorios como profesional de los datos?
Algunos científicos de datos suelen estar encantados de participar en cualquier concurso sólo para ampliar su red de contactos y su práctica. Sin embargo, la mayoría de la gente necesita evaluar los criterios anteriores para decidir si un concurso merece la pena o no. También deberás encontrar tus propios criterios y considerarlos antes de unirte a un concurso, teniendo siempre en cuenta que cuantos más concursos participes, más beneficios y experiencias de aprendizaje podrás obtener de Kaggle.
¿Qué son los concursos Datacamp?
Los Concursos DataCamp y los Concursos Kaggle tienen muchas similitudes. Al igual que en Kaggle, en DataCamp tienes la oportunidad de examinar los cuadernos compartidos públicamente, y las competiciones de DataCamp también tienen premios. Si quedas clasificado en las competiciones, ganarás una suscripción premium de 1 año a DataCamp y también podrás ganar premios en metálico. DataCamp también tiene un entorno muy similar a Kaggle en el que podrás reunirte con otros científicos de datos de todos los niveles a través de las páginas de debate.
Sin embargo, hay un par de diferencias importantes entre las competiciones de Kaggle y Datacamp. Por un lado, las competiciones de Kaggle se centran más en el aprendizaje automático, mientras que DataCamp se centra en poner a prueba tus habilidades analíticas, narrativas y de visualización en un contexto más amplio. Por otro lado, tienes más posibilidades de ganar concursos DataCamp, ya que es una plataforma emergente con relativamente pocos participantes.
En cualquier caso, nunca debes participar en los concursos con la única intención de ganar. Les sacarás mucho más partido si te centras en progresar, y en este sentido, DataCamp también ofrece grandes posibilidades de mejora que puedes aprovechar fácilmente.
¿Cómo encontrar la competición Kaggle adecuada para tu nivel? (De Principiantes a Habilidades Avanzadas)
Kaggle te permite filtrar los concursos por título o utilizando palabras clave, de modo que te resulte fácil encontrar los que más te interesan. Es tan fácil como introducir el título o las palabras clave en la barra de búsqueda. Kaggle
Figura 5.1: Concurso Búsqueda
También puedes filtrarlos por etiquetas de competición.
Figura 5.2: Filtrado de la competencia
Además de títulos, palabras clave y etiquetas, hay otros tres filtros principales: "Estado", "Premios y distinciones" y "Categorías".
Estado:
- Monetaria: Los concursos con esta etiqueta suelen ser compartidos por empresas grandes y conocidas. Si te clasificas en estas competiciones, ganarás un premio en metálico. Los premios más bajos oscilan entre 5.000 y 10.000 $. Los concursos con premios de entre 50.000 y 100.000 dólares son los más habituales. Los mayores premios llegan hasta 1 millón de dólares.
- Medallas: Obtendrás medallas Kaggle como recompensa, dependiendo de la puntuación que alcances en la competición. Con estas medallas, tu clasificación aumenta. El Ranking Kaggle se explica detalladamente en la sección 6.
- Otros: Estos concursos recompensan a los participantes con artículos de Kaggle, como camisetas o pegatinas.
Categorías:
- Destacado: Estos concursos suelen publicarlos grandes empresas, organizaciones e incluso gobiernos. Sus premios en metálico son mucho mayores que los ofrecidos en otras categorías.
- Investiga: Son concursos temáticos de investigación. Hay poco o ningún premio en metálico.
- Cómo empezar: No incluyen ninguna recompensa. Generalmente son concursos creados con fines educativos. Al final de esta sección, encontrarás un concurso de muestra con la etiqueta "Primeros pasos". No sólo verás la muestra, sino también un tutorial sobre cómo utilizar un cuaderno y cómo enviar los resultados, entre otros pasos relevantes.
- Parque infantil: Son competiciones adecuadas para los que quieren adquirir cierta experiencia y seguir mejorando sus habilidades. Los premios suelen ser artículos de Kaggle (como camisetas y pegatinas). Estas competiciones son a menudo divertidas y están gamificadas.
- En clase: Se trata de concursos que suelen organizar las universidades y en los que participan sus estudiantes de aprendizaje automático. Su objetivo es implicar e inspirar a estos alumnos.
- Analítica: Son concursos de análisis de datos.
- Simulaciones: Lo que los diferencia de los retos tradicionales de aprendizaje automático supervisado en Kaggle son los tipos de competiciones con tareas de aprendizaje por refuerzo. Los competidores desarrollan modelos y dejan que sus modelos compitan en un entorno simulado.
Además de los filtros principales, también tienes otros que te permiten ordenar las competiciones por parámetros adicionales, como "Calor", "Lanzamiento reciente", "Próximo cierre", "Recompensa" y "Total de equipos".
Figura 5.3: Clasificación de concursos
Consejos para el concurso Kaggle
1. Elige un lenguaje de programación
Python y R son los lenguajes de programación más utilizados en el campo de la ciencia de datos, especialmente cuando se trata de visualizaciones y tareas de aprendizaje automático. Si te preguntas por MATLAB, puedes utilizarlo para tareas de ciencia de datos en tu ordenador local, pero los cuadernos de Kaggle sólo admiten Python, R y Julia.
Si utilizas un lenguaje de programación diferente, puede que te resulte mucho más fácil realizar algunas tareas, pero lo que hace poderoso a un lenguaje de programación es la comunidad y el soporte de bibliotecas de código abierto que hay detrás. Tendrías que tener en cuenta que (utilizando uno de los lenguajes más populares) cualquier biblioteca que importes a tu ordenador local, también podrás importarla a Kaggle.
Si eres principiante, Python o R son lugares estupendos para empezar y seguir con ellos hasta que te desarrolles en el campo. Ten en cuenta que muchos cuadernos compartidos en Kaggle están escritos en Python y si necesitas estudiarlos, podrás hacerlo cómodamente si conoces el lenguaje.
2. Participa en Concursos etiquetados con "Empezar"
Empezar es perfecto para principiantes. Si completas estos concursos y revisas los cuadernos compartidos por otros, aprenderás mucho, y relativamente rápido.
Aquí tienes algunas oposiciones de Iniciación que te recomendamos en función de tus conocimientos:
- Si estás familiarizado con los algoritmos de Clasificación a un nivel básico, deberías probar Titanic.
- Si tienes algo de experiencia con la regresión, puedes echar un vistazo a la oposición Técnicas avanzadas de regresión de los precios de la vivienda.
- Si te interesa el campo de la visión por ordenador, deberías participar en el Reconocedor de Dígitos.
- Si tienes alguna experiencia con el tratamiento de imágenes, te recomendamos la Detección de Puntos Clave Faciales.
- Si te interesa el procesamiento del lenguaje natural, echa un vistazo a Bag of Words Meets Bags of Popcorn.
3. No utilices Kaggle exclusivamente
Una vez que pruebes uno de los concursos de nivel básico enumerados anteriormente, tendrás un poco más de experiencia y puede que te convenga buscar concursos en diferentes plataformas.
En DataCamp, puedes participar en concursos de ciencia de datos como "Diseñar una estrategia de promoción para una empresa de bebidas", que requerirá que investigues y vayas más allá de tus capacidades. Lo que hace especial a este concurso es que no se centra sólo en el aprendizaje automático, sino que también reta a los participantes a mejorar significativamente sus habilidades de análisis, narración y visualización. Puedes ver los cuadernos compartidos para este concurso en la pestaña de inscripciones.
Para maximizar tus posibilidades de éxito y aprovechar al máximo esta competición, se recomienda que completes primero los siguientes cursos:
- Análisis Exploratorio de Datos en Python
- Pensamiento estadístico en Python
- Manipulación de datos con Pandas
- Segmentación de clientes en Python
- Análisis de conglomerados en Python
4. Centrarse en el aprendizaje
Los premios en metálico de los Concursos Kaggle son importantes. Esto puede tentarte a desviarte de tu objetivo de aprender. No te centres en el premio, sino prioriza aprender y mejorar. Una vez que adquieras suficiente experiencia, tendrás tiempo de pensar en cómo llegar a la posición más alta.
5. Estudia otros cuadernos públicos
Estudiar los cuadernos compartidos en los concursos te ayudará a aprender distintas formas de resolver un mismo problema.
6. Lee las bases del concurso
Lee la información y las normas del concurso antes de decidirte a participar, y asegúrate de que las entiendes perfectamente antes de unirte al concurso.
7. Comparte tus soluciones
Compartir tus soluciones aumentará tu interacción con otros científicos de datos, y podrás obtener comentarios de los demás. Al abrir temas de discusión sobre tus soluciones, ganarás medallas más rápidamente y podrás aumentar rápidamente tu clasificación en Kaggle. En la sección 6 encontrarás más información sobre el Ranking Kaggle.
8. Haz este curso en DataCamp
El curso de DataCamp Ganar una Competición Kaggle en Python te enseñará cómo enfocar y estructurar cualquier participación en una competición de ciencia de datos. Al realizar este curso, aprenderás todas las técnicas fundamentales utilizadas en las competiciones, como la forma de validar los modelos de aprendizaje automático y de evitar el sobreajuste.
¿Qué son las clasificaciones de Kaggle?
El sistema de clasificación de Kaggle es una tabla de clasificación en vivo que clasifica a los científicos de datos de todos los niveles de experiencia, que hacen diferentes tipos de contribuciones a Kaggle, desde comentar hasta participar en competiciones de Kaggle.
Además de la clasificación principal, hay otros cuatro tipos diferentes de clasificaciones para: "Concurso", "Conjunto de datos", "Cuaderno" y "Debate". Puedes ver tu nivel en cada una de estas categorías en tu propio perfil. A medida que ganas medallas en las categorías anteriores, tu rango y tu nivel aumentan. Recuerda que las medallas se obtienen a través de las puntuaciones y los upvotes de la competición.
Hay cinco niveles principales en Kaggle: "Novato", "Colaborador", "Experto", "Maestro" y "Gran Maestro". Hasta ahora, sólo hay 241 científicos de datos en el nivel de "Gran Maestro de Kaggle", que es la liga superior. Esto demuestra lo difícil que es formar parte de ella. En cuanto al resto, ahora mismo hay 1.668 maestros, 7.206 expertos, 64.668 colaboradores y 92.747 novatos. El nivel en el que te encuentres, al igual que el número de medallas que consigas, resultará muy ventajoso para avanzar en tu carrera.
Medallas Kaggle
Las medallas representan un logro singular en una categoría. Este logro puede ser el resultado de un gran concurso, un cuaderno popular, un conjunto de datos útil o un comentario perspicaz, por nombrar algunos. Se normalizan tus logros y se crea un sistema de clasificación haciendo comparaciones con las contribuciones de otros científicos de datos.
Medallas de competición
Las medallas de competición se determinan por tu clasificación en las competiciones. Recuerda que no se ganan medallas en los concursos de las categorías InClass, Patio de recreo e Iniciación.
En las competiciones con 0-99 equipos, estar entre el 40% de los mejores te dará una medalla de bronce. Recibirás una medalla de plata si estás entre el 20% de los mejores, y una medalla de oro si estás entre el 10% de los mejores. A medida que aumenta el número de equipos, también cambia la distribución de las medallas. Por ejemplo, al participar en una competición con 1000 equipos o más, el 10% de los mejores recibirá una medalla de bronce, el 5% de los mejores recibirá una medalla de plata y los 10 mejores equipos recibirán una medalla de oro.
Conjunto de datos Medallas
Cuantos más conjuntos de datos populares compartas, más upvotes recibirás de los demás. Tus medallas del conjunto de datos vienen determinadas por el número de estos votos positivos. Los conjuntos de datos con 5-20 votos reciben una medalla de bronce, los conjuntos de datos con 20-50 votos reciben una medalla de plata, y los conjuntos de datos con 50 o más votos reciben una medalla de oro. Los votos dados por los usuarios novatos no se incluyen en el cálculo.
Medallas para cuadernos
A las medallas de cuaderno se aplican las mismas reglas que a las medallas de conjunto de datos. Los cuadernos con 5-20 votos reciben una medalla de bronce, los cuadernos con 20-50 votos reciben una medalla de plata y los cuadernos con 50 votos o más reciben una medalla de oro. Los votos dados por los usuarios novatos no se incluyen en el cálculo.
Medallas de debate
Las medallas de debate se obtienen calculando los votos netos, que se obtienen restando los votos negativos de los positivos. Los votos realizados a tus antiguos mensajes y los votos de los niveles principiantes no se incluyen en el cálculo. Un voto neto es suficiente para obtener una medalla de bronce. Si obtienes entre 5 y 10 votos netos, recibirás una medalla de plata y con 10 o más votos netos, obtendrás una medalla de oro.
Niveles de rendimiento
Se te asigna un nivel de rendimiento para cada categoría de clasificación ("Concursos", "Conjuntos de datos", "Cuadernos" y "Debates"). Tu nivel más alto en todas las categorías se muestra como nivel principal en tu perfil.
Novato
Recibes automáticamente este nivel cuando te registras en la plataforma.
Colaborador
Las condiciones para ser "Colaborador" son las siguientes:
- Ejecuta un cuaderno o script
- Haz una presentación de concurso o tarea
- Haz un comentario
- Dar un upvote
Experto
Para convertirte en "Experto", debes ganar al menos 2 medallas de bronce en concursos; al menos 3 medallas de bronce en conjuntos de datos; al menos 5 medallas de bronce en cuadernos; y al menos 50 medallas de bronce en debates.
Maestro
Para alcanzar el nivel "Maestro", debes ganar al menos 1 medalla de oro y 2 de plata en concursos; al menos 1 medalla de oro y 4 de plata en conjuntos de datos; al menos 10 medallas de plata en cuadernos, y al menos 200 medallas en debates, de las cuales al menos 50 tienen que ser de plata.
Gran Maestro
Para convertirte en "Gran Maestro", tienes que ganar al menos 5 medallas de oro en competiciones, de las cuales al menos 1 tiene que ser una medalla de oro en solitario; al menos 5 medallas de oro y 5 de plata en conjuntos de datos; al menos 15 medallas de oro en cuadernos; y al menos 500 medallas en debates, de las cuales 50 tienen que ser medallas de oro.
¿Cuánto se tarda en pasar de Colaborador a Experto?
Todo depende de cuánto perseveres y contribuyas a Kaggle. Por término medio, se tarda alrededor de 1 año en pasar de colaborador a experto, según este análisis. Este plazo depende de los distintos niveles de esfuerzo que cada científico de datos esté dispuesto a invertir en Kaggle. Por ejemplo, si inviertes tiempo en aprender y mejorar, puede que tardes más en conseguir la insignia de experto, pero si sólo intentas ganar tantas medallas como puedas lo más rápido posible, puede que tardes menos.
Suele ser mejor invertir tiempo en hacer progresos reales y no sólo en ganar medallas. Para mejorar tus conocimientos y habilidades para progresar en tu carrera, lo que cuenta es la experiencia real.
Consejos para la clasificación en Kaggle
Como ya hemos dicho, tu objetivo debe ser utilizar Kaggle o DataCamp para ampliar tu red de contactos, mejorar tus habilidades y aprender todo lo que puedas.
Sin embargo, ganar medallas también es valioso, por supuesto, y puesto que las condiciones para ganar medallas también dependen de un alto número de upvotes, deberías considerar aumentar el número de upvotes que recibes. Los siguientes consejos te ayudarán a aumentar tu número de medallas:
- No pidas upvotes. Si te esfuerzas por proporcionar información útil, los upvotes deberían surgir de forma natural. De hecho, pedir a la gente que te dé upvotes puede ser contraproducente y lo más probable es que te den downvotes.
- Puedes conseguir más upvotes si das crédito a los autores. Pero utiliza esta información de forma selectiva y sólo cuando aporte un valor real al post, para no correr el riesgo de hacer spam.
- Recuerda: céntrate únicamente en mejorar tus habilidades y las medallas te seguirán.
Los niveles y medallas de Kaggle son manifestaciones tangibles de tus logros reales. A medida que avances, lo más probable es que ver materializados tus logros te motive.
Conclusión
Competir en concursos de ciencia de datos Kaggle o DataCamp es divertido y una de las herramientas para motivarte en tu viaje por la ciencia de datos. Aunque hay científicos de datos extraordinarios que determinan los premios de los concursos en sus modelos de ingresos, el objetivo de la mayoría de los científicos de datos es aprender lo máximo posible de los concursos y adquirir experiencia real.
El elemento más útil aquí es la ambición de aumentar la clasificación de la competencia. Con esta ambición, los científicos de datos pueden mirar los cuadernos de otras personas y estudiar diferentes códigos y estrategias. Las sugerencias que se darían a tu código después del concurso pueden considerarse incluso como un estilo de tutoría gratuita.
Para ver paso a paso cómo analizar un conjunto de datos para un concurso, consulta nuestro Tutorial de Concursos Kaggle.
blog
Certificaciones Databricks en 2024: La guía completa

Gus Frazer
24 min

blog
¿Qué es shell?
Wendy Gittleson
13 min
blog
Clasificación en machine learning: Introducción
tutorial
Guía completa para el aumento de datos
tutorial
Tutorial de pandas en Python: la guía definitiva para principiantes
tutorial
Tutorial de K-Means Clustering en R

Eugenia Anello
17 min