Ir al contenido principal

Una hoja de ruta de la ciencia de datos para 2024

¿Quieres empezar o crecer en el campo de la ciencia de datos? Esta hoja de ruta de la ciencia de datos te ayuda a comprender e iniciarte en el panorama de la ciencia de datos.
Actualizado 11 sept 2024  · 15 min de lectura

Independientemente de si eres un estudiante, un aspirante a científico de datos o un profesional que busca un cambio de carrera, si quieres convertirte en un científico de datos experimentado, tienes que seguir un camino. Esto no siempre es fácil, ya que el panorama de la ciencia de datos se ha ampliado bastante y, en consecuencia, existen diferentes tipos de profesionales de la ciencia de datos con diferentes actividades y conjuntos de habilidades.

Para aproximarte a un itinerario de ciencia de datos, este artículo ofrece una visión general del panorama de la ciencia de datos para que puedas ver qué funciones se ajustan a tus ambiciones. Además, proporciona indicaciones sobre cómo pasar a desempeñar diferentes funciones dentro de ese panorama o crecer hacia ellas, respondiendo a preguntas como las siguientes: ¿Qué habilidades debes desarrollar y con qué métodos debes familiarizarte?

Empecemos con nuestra hoja de ruta de la ciencia de datos.

En breve: Una hoja de ruta para la ciencia de datos 

En este artículo, profundizamos en todos los aspectos de la hoja de ruta. Sin embargo, si buscas un resumen rápido del esquema, puedes encontrarlo a continuación: 

  1. Comprender la Ciencia de Datos: Comprender los fundamentos de la ciencia de datos y su amplio panorama.
  2. Familiaridad con el ciclo de vida de los proyectos: Empieza con un problema de negocio, desarrolla modelos predictivos y despliégalos en producción, comprendiendo las contribuciones de los distintos roles (Analista de Datos, Científico de Datos, Ingeniero de Aprendizaje Automático, Ingeniero de Datos, Arquitecto de Datos).
  3. Análisis y visualización de datos: Realiza análisis exploratorios de datos (AED) y domina las herramientas de visualización de datos (por ejemplo, matplotlib de Python, ggplot2 de R, PowerBI, Tableau).
  4. Fundamentos de Estadística y Matemáticas: Aprende estadística descriptiva e inferencial, y comprende conceptos matemáticos clave, especialmente para aplicaciones de aprendizaje automático.
  5. Temas avanzados: Aprendizaje automático e IA: Entrena y evalúa modelos, profundiza en el aprendizaje profundo y comprende los bucles de retroalimentación de la IA.
  6. Aplicaciones prácticas y proyectos: Pon en marcha y muestra proyectos que utilicen conjuntos de datos públicos o personales, participa en hackathones y desarrolla una cartera para demostrar tu experiencia.
  7. Navegación profesional: Identifica funciones que se ajusten a tus capacidades, prepárate para las preguntas pertinentes de la entrevista y mantente al día de las tendencias y recursos del sector.

Siguiendo esta hoja de ruta, podrás navegar eficazmente por el panorama de la ciencia de datos, adquirir las habilidades esenciales y desarrollar una carrera gratificante en este campo.

1. Comprender los fundamentos de la Ciencia de Datos

¿Qué es la ciencia de datos?

Para comprender el contexto de una hoja de ruta de la Ciencia de Datos, es crucial tener una idea de lo que es la Ciencia de Datos. Tenemos una guía completa que cubre las definiciones y explicaciones de la ciencia de datos, pero por el bien de este artículo, consideraremos la ciencia de datos como el conjunto de actividades dirigidas a resolver problemas mediante el uso de datos.

Un problema que se experimenta muy a menudo es "tengo una pregunta, pero no sé la respuesta", así que si ejecutas una consulta SQL en una base de datos de ventas para averiguar cuántos ingresos obtuvo una organización el mes pasado, ¡eres un científico de datos!

A menudo, los problemas/soluciones son más complejos y requieren un conjunto más diverso de competencias. Para poder hablar de esta amplia gama de funciones y habilidades de la ciencia de datos a lo largo de esta hoja de ruta de la ciencia de datos, utilizaremos el ciclo de vida de un proyecto de ciencia de datos como un portmanteau. Esto nos permitirá trazar un mapa de las distintas actividades y funciones y nos servirá de base para trazar los terrenos de la ciencia de datos.

2. Familiarizarse con el ciclo de vida de un proyecto de ciencia de datos

Los proyectos de ciencia de datos suelen comenzar con una pregunta o problema empresarial. Un problema desencadena una fase de iniciación, en la que se define un conjunto de posibles soluciones y se evalúa la viabilidad inicial. Se realiza una recopilación inicial de datos o un análisis exploratorio de los datos disponibles para ver qué es posible y qué no. ¿Son los datos suficientemente ricos? ¿Contiene suficientes funciones?

Iniciación y exploración

Una vez que todas las luces están en verde, empezamos a desarrollar un modelo predictivo. El modelo utilizará las entradas para predecir los resultados. Inicialmente, podría tratarse de un modelo de una sola vez, entrenado, probado y validado en un conjunto de validación cruzada k-fold (una técnica de aprendizaje automático para evaluar el rendimiento probable de un modelo en datos no vistos) . Este es el trabajo que suelen hacer los científicos de datos clásicos. Una vez que el modelo funcione lo suficientemente bien, es hora de empezar a producirlo y colocarlo en una tubería de la infraestructura existente, donde se controlará el rendimiento y se volverá a entrenar al modelo cuando sea necesario.

Cada una de estas fases requiere habilidades diferentes. Durante la fase de iniciación, las personas deben tener visión empresarial, estar familiarizadas con la transformación de datos, la limpieza, la estadística descriptiva y la estadística inferencial básica. Es un trabajo que puede realizar un analista de datos y/o un científico de datos.

Desarrollo y producción de modelos

En la fase de modelización, hay que construir modelos predictivos. Los modelos sencillos, como las regresiones, pueden ser construidos por un analista de datos, pero si se vuelven más complejos, necesitarás un científico de datos para construir un modelo utilizando un algoritmo existente o incluso un ingeniero de aprendizaje automático para alterar los algoritmos actuales o crear otros nuevos.

Al desplegar y poner en producción el modelo, entras en el terreno del ingeniero de aprendizaje automático o del ingeniero de datos. A diferencia de las etapas anteriores, no existe necesariamente un vínculo estrecho con el negocio, y la tarea en cuestión giraba en torno a la creación y supervisión de una canalización en torno al modelo predictivo para proporcionar una salida fiable a los sistemas de destino adecuados.

A lo largo de todo el proceso, todos los datos deben estar disponibles en los lugares adecuados con la metainformación correcta, que es la función del arquitecto de datos. A medida que se ingieren nuevos datos o se transforman los existentes en nueva información, se aseguran igualmente de que los datos acaben en el lugar correcto.

Integración de funciones y colaboración interfuncional

La forma en que los distintos papeles contribuyen a través de las diferentes fases del ciclo de vida se ilustra en la imagen siguiente. Dado que las distintas funciones contribuyen en distintas etapas, requieren distintas habilidades.

Las funciones al principio del ciclo de vida requieren más perspicacia empresarial y menos ingeniería, mientras que las fases posteriores requieren menos perspicacia empresarial y más ingeniería y optimización de algoritmos. Para ilustrar el punto, como científico de datos, puedes arreglártelas con un rendimiento computacional subóptimo para demostrar el valor y el rendimiento de tu modelo. Pero en cuanto seas responsable de la producción de modelos, tendrás que ser capaz de optimizar la complejidad computacional para asegurarte de que tu proceso es (rentable).

El nivel de contribución de los distintos Roles de Ciencia de Datos a lo largo de un Proyecto de Ciencia de Datos (DAn - Analista de Datos, DS - Científico de Datos, MLE - Ingeniero de Aprendizaje Automático, DE - Ingeniero de Datos, DAr - Arquitecto de Datos - Imagen del Autor

El nivel de contribución de los distintos Roles de Ciencia de Datos a lo largo de un Proyecto de Ciencia de Datos (DAn - Analista de Datos, DS - Científico de Datos, MLE - Ingeniero de Aprendizaje Automático, DE - Ingeniero de Datos, DAr - Arquitecto de Datos - Imagen del Autor

Es importante saber que las delimitaciones entre los papeles no son estrictas. Muchos científicos de datos ya piensan en los sistemas fuente/destino adecuados y en la eficiencia computacional, y los tienen en cuenta en su código. Un ingeniero de aprendizaje automático podría darse cuenta de que ciertos enfoques de generación de características podrían mejorar el rendimiento del modelo. Un analista de datos podría tener buenos consejos sobre en qué parte del catálogo de datos almacenar las características generadas para el arquitecto de datos. En otras palabras, todos los papeles deben, hasta cierto punto, ser conscientes del trabajo de los otros papeles, pero no tienen por qué comprender en profundidad las responsabilidades de los demás.

Habilidades y herramientas esenciales

En cuanto a las habilidades y herramientas que necesitarás, hay una base clara. Independientemente del momento del ciclo de vida de un proyecto de ciencia de datos en el que contribuyas, tendrás que tener unos conocimientos básicos de matemáticas y estadística, desarrollo de software colaborativo y manipulación de datos. A grandes rasgos, el inicio de cualquier hoja de ruta de la ciencia de datos consiste en:

Hay diferentes tipos de funciones en la ciencia de datos con diferentes requisitos de habilidades: un Analista de Datos necesitará un conocimiento más profundo de SQL que un Ingeniero de Datos. Un Científico de Datos debe conocer el Aprendizaje Automático mejor que un Arquitecto de Datos. Así que aquí es donde la hoja de ruta de la ciencia de datos se divide: dependiendo de dónde se sitúen tus ambiciones en el panorama de la ciencia de datos, necesitarás aprender diferentes habilidades. En las siguientes secciones se describirán las distintas ramas de la hoja de ruta en las que puedes pensar.

3. Profundizar en el Análisis y la Visualización de Datos

Análisis Exploratorio de Datos (AED)

Independientemente de lo avanzado que estés en la hoja de ruta de la ciencia de datos, tanto si eres un veterano experimentado como alguien que acaba de empezar, todos los proyectos de ciencia de datos empiezan por comprender tus datos.

Conocer a fondo tus datos es crucial para evaluar la viabilidad de tu proyecto. Empezando con preguntas básicas como "¿qué variables tengo?" y "¿cuántas observaciones tengo?" y terminando con preguntas más complejas como "¿cuáles son las relaciones entre las variables?".

Muy a menudo, los propios resultados de un AED pueden ser la respuesta a las preguntas de tus interlocutores. Cuando se visualizan adecuadamente y se presentan de forma coherente, por ejemplo en un cuadro de mandos, los resultados de un simple análisis de datos pueden utilizarse para responder a preguntas complejas. Esto, sin embargo, depende de la habilidad de visualización de datos.

Pero con sólo mostrar a través de tu AED que, por ejemplo, existen diferentes segmentos de visitantes de un sitio web, habrás aportado valor de una forma científica de datos.

Hay múltiples formas de visualizar tus resultados. Ya sea en bibliotecas/paquetes de visualización en el lenguaje que utilices (como ggplot2 de R y matplotlib de Python) o en herramientas dedicadas a la visualización de datos (como PowerBI, Tableau o incluso Excel).

Maestría en Visualización de Datos

Especialmente cuando nos centramos más en las tareas de un Analista de Datos, tener un conocimiento más profundo de la visualización de datos ayuda.

Para la mayoría de las funciones de la ciencia de datos, las visualizaciones pueden servir para comprobar supuestos mediante diagramas de dispersión e histogramas, pero cuando el análisis en sí es el producto final, como en el caso de un analista de datos, te encontrarás con situaciones en las que querrás que los resultados del análisis sean fáciles de digerir.

Piensa en estilos de casa personalizados, nuevas visualizaciones o infografías que sirvan de entrada a una unidad de toma de decisiones. En estas situaciones, ayuda poder crear una visualización de datos que sea prácticamente una obra de arte. Comprender la Visualización de Datos es un curso que realmente ayuda a profundizar en tus competencias dataviz.

Una hoja de ruta de la ciencia de datos visualizada como mapa de metro, que muestra los fundamentos que todos los roles de la ciencia de datos tienen en común y las habilidades específicas de los distintos roles. - Imagen del autor

Una Hoja de Ruta de la Ciencia de Datos, visualizada como un mapa de metro, que muestra los fundamentos que todos los Roles de la ciencia de datos tienen en común y las habilidades específicas de los diferentes roles. - Imagen del autor

4. Construir una base en Estadística y Matemáticas

Estadística descriptiva e inferencial

Otra de las primeras paradas en la hoja de ruta de la ciencia de datos es la estadística. Algunos conceptos estadísticos básicos deberían ser una segunda naturaleza para cualquier tipo de científico de datos.

En cualquier momento, tendrás que ser capaz de describir tus datos y los subgrupos de tus datos. ¿Cuál es la renta media en tu conjunto de datos? ¿Cuáles son los ingresos mínimos y máximos? ¿Qué es la desviación típica o qué otras medidas de dispersión existen? Y si tienes valores categóricos, ¿cuántos valores únicos hay? ¿Cuál es el más frecuente? ¿Se dan todos los valores con la misma frecuencia, o su distribución es menos uniforme?

Responder a las preguntas con análisis descriptivos sobre grupos/subgrupos ya puede proporcionar información valiosa, pero lo más frecuente es que tengas que fijarte en la relación entre las variables de tu conjunto de datos y pasar a la estadística inferencial.

La parte desafiante e interesante de la estadística inferencial son los distintos tipos de valores categóricos y numéricos y las relaciones entre ellos. Estos ejemplos incluyen:

  • Correlaciones; la relación entre valores numéricos, como "¿cómo se relacionan la edad y los ingresos?".
  • La relación entre categórico y numérico para investigar la pregunta "¿Cómo se comparan los ingresos de hombres y mujeres?" (con el sexo como valor de entrada categórico y los ingresos como valor objetivo numérico),
  • O al revés: "¿Son las personas mayores más propensas a divorciarse?". (con la edad como valor de entrada numérico y divorciado como valor objetivo categórico).
  • Relaciones entre variables categóricas, "¿Se divorcian los hombres más a menudo que las mujeres?"

Para poder responder a estas preguntas, necesitas conocer los distintos tipos de pruebas estadísticas, que van desde la prueba T más sencilla hasta métodos más complejos, como las regresiones lineales multivariantes o el análisis de series temporales.

Puedes seguir los cursos pertinentes para profundizar tus conocimientos de estadística en: Python, R e incluso herramientas independientes. Estos cursos proporcionan una base adecuada para empezar a trabajar con el aprendizaje automático. Al comprender estadísticamente la relación entre los predictores y las variables objetivo, comprendes los principios de los algoritmos utilizados para elaborar modelos de aprendizaje supervisado.

La profundidad con la que quieras profundizar en esta área depende, una vez más, del punto de la hoja de ruta de la ciencia de datos al que quieras llegar. Si aspiras a ser analista de datos, puede bastar con que conozcas los fundamentos de la estadística. Los arquitectos de datos pueden no necesitar ningún conocimiento estadístico. Pero los científicos de datos y los ingenieros de aprendizaje automático se encontrarán sin duda con situaciones en las que tendrán que recurrir a sus conocimientos estadísticos.

Conceptos matemáticos para la ciencia de datos

La ciencia de los datos se construye en torno a números y cálculos y, en consecuencia, las matemáticas desempeñan un papel importante. Aunque un título avanzado en matemáticas no es una parada necesaria en la hoja de ruta de la ciencia de datos, comprender el álgebra y el cálculo te ayudará a entender conceptualmente una serie de métodos utilizados a menudo en la ciencia de datos. La mayoría de los enfoques de reducción de la dimensionalidad (como el ACP y la factorización de matrices) se basan en el álgebra lineal, y muchos algoritmos de optimización (como el descenso de gradiente) se basan en el cálculo.

Y al igual que ocurre con la estadística y el análisis de datos, estos conocimientos no son necesariamente relevantes para todas las funciones de la ciencia de datos. Si tu objetivo es convertirte en ingeniero de aprendizaje automático, no hay forma de evitar las matemáticas. Pero la mayoría de las demás funciones -incluso un científico de datos- podrían prescindir del álgebra y el cálculo.

Para aprender más y comprender los conceptos algebraicos, consulta nuestro curso sobre Álgebra Lineal para la Ciencia de Datos en R

5. Explorando temas avanzados: Aprendizaje automático e IA

Introducción al aprendizaje automático

El aprendizaje automático es el arte de crear software que aprenda de los datos. Es realmente el pan de cada día para los científicos de datos, los ingenieros de aprendizaje automático e incluso los ingenieros de datos. ¿La parte de tu solución que proporciona los ingresos por ventas previstos para tu empresa, en función de tu inventario y precios? ¡Eso se construye mediante aprendizaje automático!

El nivel mínimo de conocimientos que necesitas como científico de datos es ser capaz de entrenar y evaluar modelos. En determinadas situaciones, puede que quieras profundizar y aprender a modificar los algoritmos existentes o incluso escribir algoritmos nuevos, entrando en el reino del ingeniero de aprendizaje automático.

Tienes mucha libertad en la forma de hacer tu aprendizaje automático. Puedes codificarlo todo tú mismo (en Python, o R, o C# o Java, con las bibliotecas pertinentes), puedes utilizar paquetes de software locales (como Weka y RapidMiner), o puedes utilizar soluciones en la nube (como Databricks y AWS SageMaker). Aunque esto hace que sea difícil decidir qué aprender, la experiencia que desarrollas se transfiere con bastante facilidad. Una buena idea para decidir qué conjunto de herramientas de aprendizaje automático empezar a utilizar sería partir de un lenguaje que ya conozcas o comprobar qué herramientas utiliza la gente en el sector que te interesa.

Puedes empezar con nuestro itinerario profesional de Científico de Aprendizaje Automático con Python, que cubre muchos de los fundamentos que necesitarás para iniciar tu carrera.

Profundizar en el aprendizaje profundo y la IA

La relación entre el aprendizaje automático, el aprendizaje profundo y la IA es discutible.

Cuando enseñaba aprendizaje automático, mi primera clase era siempre un animado debate sobre la afirmación: "El aprendizaje automático es una forma de IA". Aunque a veces se utilizan indistintamente, creo firmemente que el aprendizaje automático permite la IA, pero eso no significa que si utilizas el aprendizaje automático, hayas creado la IA.

Para que una aplicación de datos se convierta en IA, es esencial que exista un bucle de retroalimentación en el que la aplicación o el modelo aprendan de sus resultados. En este caso, un algoritmo de aprendizaje supervisado de una sola vez no es necesariamente IA. Si retroalimentas la salida del modelo al modelo (como con el aprendizaje por refuerzo), sí consigues IA, ya que tienes un sistema que sigue aprendiendo automáticamente de sus predicciones correctas e incorrectas.

El aprendizaje profundo no es mucho más que redes neuronales con esteroides. Lo que hace que las aplicaciones sean interesantes es que el Aprendizaje Profundo permite obtener resultados súper tangibles, ya que estos modelos pueden producir texto, imágenes y voz. Si trabajas en un proyecto de ciencia de datos en el que es esencial que los modelos produzcan algo que pueda ser percibido o experimentado por usuarios finales humanos, comprender el aprendizaje profundo puede ser una ventaja real. Un curso que es un gran comienzo es Introducción al Aprendizaje Profundo en Python.

6. Aplicaciones prácticas y proyectos reales

Implementación de proyectos de ciencia de datos

Ningún esfuerzo de ciencia de datos vive en el vacío. A medida que avances en tu camino, es importante que conserves y exhibas los artefactos que produzcas. Parte de ser un científico de datos es ser capaz de demostrar lo que puedes hacer.

Para mí, la parte más emocionante de la ciencia de datos es que no necesitas mucho. Sólo necesitas un conjunto de datos públicos y algo de creatividad para plantear una pregunta interesante y luego responder a esa pregunta utilizando los datos. O puedes simplemente entrar en DataLab o Kaggle y empezar a trabajar en las tareas y/o concursos, inspirándote en otras propuestas.

También puedes recopilar y utilizar tus propios datos. He analizado mis datos de ciclismo descargados de Strava y he raspado datos inmobiliarios para ayudarme en mi búsqueda del mercado de la vivienda.

Lo más importante es que documentes lo que haces. Intenta que tu trabajo sea reproducible, explica los pasos que has seguido, comparte tu código y comparte el resultado de tu análisis o sistema. ¿Quién sabe? Quizá tu ejercicio de práctica sea la solución exacta al problema de alguien.

image3.png

Ejemplos de proyectos

En mi opinión, los proyectos más interesantes son los que surgen de tu propia pasión e intereses. Si utilizas un conjunto de datos de algún lugar que conozcas bien, lo más probable es que se te ocurran preguntas únicas e interesantes. Conoces el dominio, y conoces los datos... Pero si realmente empiezas de cero, hay muchas cosas en las que puedes empezar a trabajar, como aplicaciones de citas, comercio, deportes.

También puedes encontrar una gran variedad de proyectos de ciencia de datos en DataCamp, que te permitirán familiarizarte con el tipo de trabajo. Tanto si empiezas con algunos proyectos de análisis de datos como si trabajas en proyectos específicos de Python, puedes llegar hasta proyectos de aprendizaje automático e incluso de IA. Hay muchas opciones para ayudarte a empezar.

Si, a pesar de todo lo que hay, no encuentras la manera de ponerte en marcha, otra alternativa útil puede ser participar en hackathones. Muchos institutos de investigación y grandes empresas organizan hackathones periódicos.

Estos hackathons suelen tener el objetivo de que equipos de científicos de datos realicen aportaciones sobre un problema relevante y, por tanto, ofrecen la oportunidad de colaborar con otros profesionales de la ciencia de datos y aprender de ellos. Así podrás crear una red de contactos y llamar la atención de posibles empleadores al tiempo que adquieres una experiencia útil.

Desarrollo de la cartera

Hoy en día es difícil imaginar a un científico de datos que no tenga un portafolio en GitHub, DataCamp, o una página en Medium o un blog con código. Un portafolio es algo crucial en la ciencia de datos, al igual que en otras industrias creativas.

Ser capaz de demostrar proyectos anteriores es una forma estupenda de convencer a la gente de que tienes lo que hay que tener. Por eso merece la pena empezar a documentar tu trabajo en un portafolio. También puedes documentar tu trabajo y tus puntos de vista como entradas de blog o incluso como publicaciones académicas. Echa un vistazo a nuestro post sobre cómo mostrar tu experiencia en datos con un portafolio para inspirarte.

Independientemente de lo que elijas, asegúrate de mantener un resumen presentable de los proyectos en los que has trabajado.

7. Navegar por el panorama profesional de la ciencia de datos

Salidas profesionales en ciencia de datos

Todo este post ha puesto de relieve las diferentes habilidades, conocimientos y herramientas de que dispone un científico de datos. Pero, ¿por dónde empezar a la hora de decidir una carrera?

En mi opinión, esto depende realmente de dónde estén tus ambiciones. Este post debería haber dejado claro que no creo que exista una hoja de ruta única para la ciencia de datos.

Por supuesto, todas las funciones de la ciencia de datos se basan en conocimientos de estadística, manipulación de datos, aprendizaje automático e ingeniería de software. Pero aparte de eso, realmente depende.

Un científico de datos utiliza algoritmos, mientras que un ingeniero de aprendizaje automático altera o crea algoritmos. Así, el científico de datos puede contentarse con conocer muchos algoritmos y saber cuándo aplicarlos, mientras que el ingeniero de aprendizaje automático tiene que comprender realmente los conceptos matemáticos que hay detrás de los algoritmos.

Del mismo modo, si obtienes tu energía compartiendo resultados de análisis, como un científico de datos o un analista de datos, lo más probable es que te beneficies más de un conocimiento profundo de la visualización de datos y el AED que de ser muy bueno en el modelado de datos.

Así pues, la hoja de ruta de la ciencia de datos tiene bastantes bifurcaciones, y tú mismo puedes decidir hasta dónde quieres profundizar en las distintas ramas de la ciencia de datos.

Preparación para las entrevistas de ciencia de datos

A pesar de las diferencias entre los papeles, en cualquier entrevista te pondrán a prueba en habilidades duras y blandas. Estas pruebas serán diferentes según el papel que persigas.

Si no buscas un puesto como ingeniero de aprendizaje automático o de datos, lo más probable es que no te hagan preguntas como "¿Cómo optimizarías el algoritmo A o B?". Por eso es importante que te centres en las competencias y, por tanto, en las cuestiones en las que se espera que trabajes y en las que estás dispuesto a trabajar. Recibir preguntas sobre temas con los que no estás familiarizado puede ser una señal de que el puesto no es para ti.

Porque en este campo bastante nuevo, sobre todo en las empresas en las que los datos son relativamente nuevos, hay muchos conceptos erróneos sobre lo que son los científicos de datos o lo que hacen.

Sé que he solicitado un puesto de científico de datos en el que el entrevistador utilizaba indistintamente científico de datos e ingeniero de aprendizaje automático. Por tanto, es muy posible que el responsable de contratación haya metido la pata si te hacen preguntas que no puedes responder. Casi nunca se debe preguntar a un ingeniero de datos cómo haría la gestión de las partes interesadas en un proyecto, por ejemplo.

Afortunadamente, hay varios recursos disponibles que te ayudarán a prepararte para las entrevistas sobre el terreno en función del puesto que solicites:

8. Formación continua y aprendizaje permanente

Estar al día de las tendencias

El campo de la ciencia de datos es muy dinámico, y es crucial mantenerse al día de las últimas tendencias. Con ChatGPT, la IA Generativa se convirtió en la corriente principal, y ahora es difícil imaginar a un científico de datos que no tenga al menos alguna noción de las incrustaciones de tokens y/o los modelos de atención. Del mismo modo, la introducción de MLOps hace difícil imaginar a un ingeniero de datos comprobando manualmente el rendimiento y la deriva del modelo.

Con este crecimiento dinámico, cobran importancia distintos aspectos de la IA. Actualmente, se presta mucha atención a los aspectos éticos y jurídicos de la IA, como demuestran varios debates académicos y políticos que, entre otras cosas, han dado lugar a nuevas normas y reglamentos.

Independientemente de las decisiones de los gobiernos con respecto a la IA, nadie quiere ser responsable del próximo escándalo en la ciencia de datos. La única forma de evitarlo es siendo consciente de los límites éticos y legales. O mejor aún, como profesional de la ciencia de datos, puedes empezar a contribuir a estos avances utilizando tus conocimientos y formándote y expresando una opinión.

Hay muchas formas de mantenerse al día. Por supuesto, existe DataCamp como plataforma, pero también puedes empezar a buscar y seguir a profesionales de la ciencia de datos inspiradores en tu campo. Comprueba si tienen blogs, publicaciones en X o Medium, o cualquier otra cosa en la que puedas hacerte una idea de cómo ven el panorama cambiante y dinámico.

image5.png

Recursos de aprendizaje avanzado

Como hemos destacado a lo largo de este artículo, hay muchos recursos disponibles para cualquiera que quiera empezar o crecer en el campo de la ciencia de datos. Alternativamente, si quieres estar realmente cerca de la fuente, puedes acudir a conferencias técnicas como NeurIPS, ICML o KDD. Consulta éstas y otras más en nuestra lista de las Mejores Conferencias de Ciencia de Datos para 2024.

Conclusión y próximos pasos

Aunque hay muchas paradas en la hoja de ruta de la ciencia de datos, no hay un único camino de la ciencia de datos. Navegar por el panorama de la ciencia de datos requiere que tengas 1) una idea del panorama (que esperemos que obtengas de este post) y 2) una idea de tus puntos fuertes, débiles e intereses, para que puedas decidir a qué dedicarte.

Si las tienes, puedes confiar en que este artículo te empujará en la dirección correcta y en qué habilidades debes poner el énfasis durante tu entrenamiento. Afortunadamente, hay algunos recursos útiles para empezar, como las trayectorias profesionales de DataCamp, que te dotan de las habilidades que necesitas para empezar a explorar distintas profesiones:

Preguntas frecuentes sobre la hoja de ruta de la ciencia de datos

¿Cuáles son los retos más comunes a los que se enfrentan los científicos de datos durante el ciclo de vida del proyecto?

Los científicos de datos se enfrentan a menudo a retos como los problemas de calidad de los datos, la integración de datos procedentes de múltiples fuentes, la selección de los algoritmos adecuados, la garantía de interpretabilidad de los modelos y las limitaciones computacionales. Además, comunicar los resultados a las partes interesadas no técnicas y alinear los proyectos con los objetivos empresariales puede ser todo un reto.

¿Cómo puedo decidir qué función de la ciencia de datos (analista de datos, científico de datos, ingeniero de aprendizaje automático, ingeniero de datos, arquitecto de datos) es la más adecuada para mí?

Considera tus intereses y puntos fuertes. Si te gusta la visualización de datos y la narración de historias, un puesto de Analista de Datos puede ser adecuado para ti. Si te interesa construir modelos y analizar datos, considera la posibilidad de convertirte en Científico de Datos. Para quienes aman codificar y optimizar algoritmos, un puesto de Ingeniero de Aprendizaje Automático es ideal. Si prefieres manejar canalizaciones de datos e infraestructura, mira en Ingeniería de Datos. Por último, si te gusta diseñar sistemas y arquitecturas de datos, el puesto de Arquitecto de Datos podría ser el más adecuado.

¿Cuáles son las mejores formas de estar al día de las últimas tendencias en ciencia de datos?

Sigue a científicos y profesionales de datos influyentes en plataformas como LinkedIn, X y Medium. Participa en foros y comunidades de ciencia de datos como DataCamp y asiste a conferencias de ciencia de datos como Radar. Además, suscríbete a boletines y blogs de ciencia de datos como éste, y realiza continuamente cursos en línea para mantener tus conocimientos actualizados.

¿Qué importancia tiene el conocimiento del dominio en la ciencia de datos, y cómo puedo obtenerlo?

El conocimiento del dominio es crucial para comprender el contexto de tus datos y tomar decisiones informadas. Adquiere conocimientos de dominio trabajando en proyectos relacionados con sectores específicos, leyendo bibliografía específica del sector y colaborando con expertos en esos campos. Las prácticas, la creación de redes y la asistencia a conferencias del sector también pueden ayudar a adquirir experiencia en el sector.

¿Cómo puedo demostrar mis conocimientos de ciencia de datos a posibles empleadores si estoy empezando?

Construye una sólida cartera trabajando en proyectos de ciencia de datos, participando en concursos y contribuyendo a proyectos de código abierto. Crea un portafolio DataLab para mostrar tu código, escribe entradas de blog sobre tus proyectos y construye una presencia online en plataformas como LinkedIn. Las prácticas y el voluntariado en proyectos de ciencia de datos también pueden proporcionar experiencia práctica.


Mark Graus's photo
Author
Mark Graus
LinkedIn

Especialista en datos con experiencia en el mundo académico y en el sector de los servicios financieros. Competente en Investigación Cuantitativa y Cualitativa, Ingeniería de Software e Interacción Persona-Ordenador. Formación académica de máster y doctorado en Interacción Tecnológica Humana por la Universidad Tecnológica de Eindhoven.

Temas

¡Comienza hoy tu viaje en Ciencia de Datos!

Programa

Científico de datos en Python

0 min
Aprende ciencia de datos en Python, desde la manipulación de datos hasta el aprendizaje automático, ¡y adquiere las habilidades necesarias para la certificación de Científico de Datos en Python!
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado

blog

Principales conferencias sobre ciencia de datos para 2024

En este artículo, describiremos las impresionantes conferencias sobre ciencia de datos a las que asistir en 2024.

Kevin Babitz

10 min

blog

Las 15 mejores habilidades de los científicos de datos para 2024

Una lista de las habilidades imprescindibles que todo científico de datos debe tener en su caja de herramientas, incluyendo recursos para desarrollar tus habilidades.
Javier Canales Luna's photo

Javier Canales Luna

8 min

blog

Cómo ser analista de datos en 2024: 5 pasos para iniciar tu carrera profesional

Aprende a convertirte en analista de datos y descubre todo lo que necesitas saber para lanzar tu carrera, incluidas las habilidades que necesitas y cómo aprenderlas.
Elena Kosourova's photo

Elena Kosourova

15 min

Data Science Concept Vector Image

blog

Cómo convertirse en científico de datos en 8 pasos

Descubre todo lo que necesitas saber para convertirte en un científico de datos, ¡y averigua si es la carrera adecuada para ti!
Jose Jorge Rodriguez Salgado's photo

Jose Jorge Rodriguez Salgado

12 min

blog

Los mejores lenguajes de programación para los científicos de datos en 2023

¿Estás pensando en introducirte en la ciencia de datos, pero no sabes qué lenguaje de programación elegir? Aquí tienes todo lo que necesitas saber sobre los lenguajes de programación que liderarán el sector de la ciencia de datos en 2023.
Javier Canales Luna's photo

Javier Canales Luna

13 min

Ver másVer más