Curso
Si te entrevistas para un puesto de IA, ML o ciencia de datos, es casi seguro que salgan preguntas de PLN. Tanto si explicas la diferencia entre stemming y lemmatization como si describes cómo funciona la atención en un transformer, quienes entrevistan quieren ver que sabes razonar sobre datos lingüísticos, no solo recitar definiciones. Nuestro curso Introduction to NLP in Python es un buen punto de partida para construir esa base.
Lo que complica las entrevistas de PLN es que las expectativas cambian mucho según el rol. Una entrevista para juniors no se parece en nada a la de un ingeniero de ML. Esta guía reúne 45 preguntas de entrevista de PLN organizadas por dificultad y tipo de puesto, para que puedas centrarte en lo que realmente te vas a encontrar.
Preguntas de entrevista de PLN para principiantes
Estas preguntas evalúan tu comprensión de los conceptos y la terminología básicos del PLN. Suelen aparecer en puestos de entrada en data science o análisis.
¿Qué es el procesamiento del lenguaje natural?
El PLN es una rama de la IA centrada en que los ordenadores entiendan, interpreten y generen lenguaje humano. Une la lingüística con el aprendizaje automático para abordar tareas como traducción, análisis de sentimiento y clasificación de texto.
¿Cuáles son algunas tareas comunes de PLN?
Entre las tareas más habituales están la clasificación de texto, el reconocimiento de entidades con nombre (NER), el análisis de sentimiento, la traducción automática, el resumen y la respuesta a preguntas. Cada tarea tiene enfoques de modelado y criterios de evaluación propios.
¿Qué es la tokenización?
La tokenización divide texto en bruto en unidades más pequeñas, normalmente palabras o subpalabras, que un modelo puede procesar. Por ejemplo, "I love NLP" se convierte en ["I", "love", "NLP"] a nivel de palabra.
¿Cuál es la diferencia entre stemming y lemmatization?
El stemming recorta terminaciones con reglas, dando raíces que pueden no ser palabras reales ("running" → "run", "studies" → "studi"). La lemmatization usa vocabulario y análisis morfológico para devolver la forma base real ("studies" → "study"), por lo que es más precisa pero más lenta.
¿Qué son las stop words y por qué las eliminamos?
Las stop words son palabras muy frecuentes como "the", "is" y "and" que aportan poco significado semántico para muchas tareas de PLN. Quitarlas reduce el ruido y acelera el procesamiento, aunque en algunas tareas como el análisis de sentimiento puede interesar mantenerlas.
¿Qué es el modelo Bag of Words (BoW)?
BoW representa el texto como un conjunto desordenado de recuentos de palabras, ignorando gramática y secuencia. Es simple y rápido, pero pierde el contexto. "Not good" y "good" resultarían casi idénticos en una representación BoW.
¿Qué es TF-IDF y cómo mejora a BoW?
TF-IDF (Term Frequency-Inverse Document Frequency) pondera cada palabra por la frecuencia con la que aparece en un documento en relación con lo común que es en todo el corpus. Las palabras frecuentes en un documento pero raras en general obtienen puntuaciones más altas, lo que ayuda a resaltar términos más informativos que con recuentos brutos.
¿Cómo evalúas un modelo de clasificación de texto?
La exactitud funciona cuando las clases están equilibradas, pero la precisión, el recall y la F1-score dan una visión más completa con conjuntos desbalanceados. F1 es la media armónica de precisión y recall, útil cuando los falsos positivos y los falsos negativos tienen costes distintos.
Cuando dominas los fundamentos, las entrevistas empiezan a explorar cómo entiendes los pros y contras de cada enfoque. Ahí entran las preguntas intermedias.
Preguntas de entrevista de PLN intermedias
Estas preguntas asumen que has construido modelos de PLN y entiendes los compromisos entre enfoques. Suelen aparecer en puestos de nivel medio de ML o ciencia de datos.
¿Cuál es la diferencia entre Word2Vec, GloVe y FastText?
Word2Vec aprende embeddings a partir de coocurrencias locales con una red neuronal somera. GloVe usa estadísticas de coocurrencia global en todo el corpus. FastText amplía Word2Vec representando las palabras como bolsas de n-gramas de caracteres, lo que ayuda con palabras raras y con errores tipográficos.
¿Qué son los embeddings contextuales y por qué importan?
A diferencia de los embeddings estáticos (Word2Vec, GloVe), los embeddings contextuales como los de BERT varían según las palabras circundantes. "Bank" obtiene un vector distinto en "river bank" frente a "bank account", lo que mejora mucho el rendimiento en tareas que requieren comprensión profunda.
¿Qué es un modelo de lenguaje por n-gramas?
Un modelo por n-gramas predice la siguiente palabra en función de las N-1 anteriores. Los bigramas miran una palabra atrás, los trigramas dos. Son interpretables y rápidos, pero fallan con dependencias de largo alcance y sufren de escasez de datos para secuencias raras.
¿Por qué las RNNs tienen problemas con secuencias largas y cómo lo abordan las LSTM?
Las RNNs básicas padecen gradientes que se desvanecen, lo que dificulta aprender dependencias a muchos pasos. Las LSTM introducen mecanismos de compuertas (entrada, olvido y salida) que controlan qué información fluye, permitiendo retener contexto relevante en secuencias más largas.
¿Qué es el mecanismo de atención?
La atención permite al modelo ponderar la relevancia de cada token de entrada al producir una salida. En lugar de comprimir toda la secuencia en un solo vector, la atención calcula una suma ponderada sobre todas las posiciones, de modo que el modelo se centra en las partes más relevantes.
¿Cómo se hace fine-tuning de un modelo preentrenado como BERT?
Se añade una cabeza específica de tarea (p. ej., una capa de clasificación) encima del modelo preentrenado y se entrena con tus datos etiquetados usando una tasa de aprendizaje baja. El fine-tuning suele requerir mucha menos data que entrenar desde cero porque el modelo ya ha aprendido representaciones lingüísticas generales.
¿Cómo gestionas el desbalanceo de clases en tareas de clasificación de texto?
Estrategias comunes incluyen sobremuestrear las clases minoritarias, submuestrear la mayoritaria o ajustar pesos de clase en la función de pérdida. Con desbalanceo severo, técnicas de aumento de datos como parafraseo o sustitución por sinónimos también ayudan.
Las preguntas intermedias van de conocer las herramientas. Las avanzadas, de saber cuándo fallan y qué hacer al respecto.
Preguntas de entrevista de PLN avanzadas
Estas preguntas evalúan conocimiento arquitectónico profundo y los compromisos en producción. Suelen aparecer en entrevistas para perfiles senior de ML o ingeniería de PLN.
Explica a alto nivel la arquitectura transformer.
El transformer consta de un codificador y un decodificador (o solo uno, según el modelo), ambos construidos con capas apiladas de autoatención y redes feed-forward. Procesa todos los tokens en paralelo en lugar de secuencialmente, lo que lo hace mucho más eficiente de entrenar en hardware moderno.
¿Qué es la autoatención y cómo la amplía la atención multi-cabeza?
La autoatención calcula relaciones entre cada par de tokens de una secuencia mediante vectores de consulta, clave y valor. La atención multi-cabeza ejecuta este proceso varias veces en paralelo con proyecciones distintas aprendidas, capturando simultáneamente diferentes tipos de relaciones.
¿Qué es el codificado posicional y por qué lo necesitan los transformers?
Como los transformers procesan tokens en paralelo, no tienen noción inherente del orden. Se añaden codificados posicionales (funciones sinusoidales fijas o embeddings aprendidos) a los embeddings de tokens para que el modelo infiera la posición en la secuencia.
¿Qué es el masked language modeling (MLM)?
MLM es un objetivo de preentrenamiento usado por BERT en el que se enmascara aleatoriamente un porcentaje de tokens de entrada y el modelo aprende a predecirlos por contexto. Este entrenamiento bidireccional permite construir representaciones contextuales ricas, frente al modelado de lenguaje de izquierda a derecha.
¿Qué son las estrategias de tokenización BPE y WordPiece?
Byte-Pair Encoding (BPE) fusiona iterativamente los pares de caracteres más frecuentes para construir un vocabulario de subpalabras. WordPiece, usado por BERT, es similar pero selecciona fusiones en función de la verosimilitud en los datos de entrenamiento en lugar de la frecuencia bruta. Ambos manejan bien palabras raras y fuera de vocabulario.
¿Qué son BLEU, ROUGE y perplexity, y cuándo usar cada uno?
BLEU mide el solapamiento de n-gramas entre texto generado y de referencia, común en traducción. ROUGE hace algo similar pero prioriza el recall, por lo que es popular en resumen. La perplexity mide qué tan bien un modelo de lenguaje predice un corpus de validación; cuanto menor, mejor, aunque no siempre correlaciona con juicios humanos.
¿Cuáles son los principales retos al entrenar grandes modelos de lenguaje?
Los costes de cómputo y memoria crecen de forma pronunciada con el tamaño del modelo, lo que hace necesario el entrenamiento distribuido en muchas GPU. Otros retos incluyen la calidad y contaminación de los datos, la inestabilidad durante el entrenamiento y la dificultad de evaluar. Los benchmarks estándar se saturan rápido.
El conocimiento de la arquitectura llega hasta cierto punto. Para perfiles de data scientist, interesa ver cómo aplicas todo esto a problemas de negocio reales con datos desordenados del mundo real.
Preguntas de entrevista de data scientist en PLN
Estas preguntas se centran en cómo aplicas PLN para resolver problemas de negocio. Suelen aparecer en roles aplicados donde te encargas de todo el flujo de modelado.
¿Cómo construyes un pipeline de PLN de extremo a extremo?
Un pipeline típico abarca ingesta de datos, limpieza, preprocesado (tokenización, normalización), extracción de características o embeddings, entrenamiento del modelo, evaluación y despliegue. Lo más difícil suele ser la calidad de los datos y mantener la reproducibilidad entre entornos.
¿Cómo abordas la selección de características para modelos de texto?
En modelos clásicos, puedes usar información mutua o pruebas chi-cuadrado para identificar términos informativos. En deep learning, la selección de características suele estar implícita en la arquitectura. En cualquier caso, el conocimiento del dominio importa: distinguir señal de ruido acelera mucho la iteración.
¿Cómo gestionas texto ruidoso o no estructurado?
Empieza con una exploración para entender los patrones de ruido: erratas, idiomas mezclados, problemas de codificación, restos de HTML. Luego aplica pasos de limpieza dirigidos y documéntalos. Normalizar en exceso (poner todo en minúsculas, quitar puntuación) puede ayudar o perjudicar según la tarea.
¿Cómo interpretas las predicciones de un modelo de clasificación de texto?
Técnicas como LIME y SHAP pueden resaltar qué tokens influyeron más en una predicción. A veces se usan pesos de atención, pero pueden ser engañosos, ya que no siempre reflejan la verdadera importancia de las características. Analizar errores en ejemplos mal clasificados suele ser el mejor punto de partida.
¿Cómo conectas el rendimiento del modelo de PLN con resultados de negocio?
Traduce pronto las métricas del modelo a impacto de negocio. Un 2% de mejora en F1 de un clasificador de intención de cliente puede suponer miles de tickets mal enrutados menos por semana. Enfocar así los resultados mantiene a los stakeholders implicados y ayuda a priorizar lo siguiente a mejorar.
¿Cuál es tu enfoque de análisis de errores en PLN?
Muestrea y revisa manualmente ejemplos mal clasificados buscando patrones sistemáticos: dominios concretos, longitudes de texto, vocabulario o ambigüedad en etiquetas. Estos patrones indican si necesitas más datos, mejor preprocesado, otro modelo o etiquetas más limpias.
Las preguntas para data scientist tratan sobre decisiones de modelado. Las de ingeniero de ML van más allá, hacia sistemas en producción donde la fiabilidad, la latencia y la escala marcan los límites reales.
Preguntas de entrevista de ingeniero de ML en PLN
Estas preguntas tratan de sistemas en producción: fiabilidad, latencia y escala. Son habituales en roles de MLE o MLOps.
¿Cómo despliegas un modelo de PLN a producción?
Envuelve el modelo en una API REST (FastAPI o Flask), contenerízalo con Docker y sírvelo detrás de un balanceador. Para alto tráfico, considera inferencia asíncrona o un servidor de modelos como TorchServe o Triton Inference Server.
¿Cuáles son estrategias comunes para reducir la latencia del modelo?
La cuantización convierte pesos de floats de 32 bits a 8 o 4 bits, sacrificando un poco de precisión a cambio de grandes ganancias de velocidad. La distilación del conocimiento entrena un modelo alumno más pequeño para imitar a un profesor grande, logrando a menudo más del 90% del rendimiento original con una fracción del cómputo.
¿Cómo gestionas el serving para inferencia por lotes vs. en tiempo real?
La inferencia en tiempo real prioriza baja latencia, así que ayudan modelos más pequeños o el uso de cachés. La inferencia por lotes puede procesar grandes volúmenes offline a menor coste usando modelos más grandes y precisos. La elección depende de si el caso de uso tolera demora.
¿Cómo es el monitoreo de un sistema de PLN en producción?
Además de métricas estándar como latencia y tasas de error, rastrea señales específicas del modelo: distribuciones de confianza, histogramas de longitudes de entrada y deriva de predicciones en el tiempo. Un cambio súbito en vocabulario o tema de entrada puede degradar el rendimiento antes de que lo reflejen las métricas de evaluación.
¿Cómo escalas modelos transformer para alta carga?
El escalado horizontal con múltiples réplicas del modelo atiende solicitudes concurrentes. También puedes usar paralelismo de modelo para dividir modelos muy grandes entre GPUs, o explorar arquitecturas eficientes como DistilBERT que sacrifican algo de precisión por requisitos de recursos mucho menores.
¿Cómo diseñas un pipeline de datos para ingestión continua de texto?
Usa una cola de mensajes (Kafka o Pub/Sub) para amortiguar flujos de texto entrantes y aplica el preprocesado en workers en paralelo. Guardar por separado versiones en bruto y procesadas facilita mucho reprocesar cuando cambie la lógica del pipeline.
Para roles de investigación, las preguntas cambian. Menos sobre poner sistemas en producción y más sobre hacia dónde va el campo y qué sigue sin resolverse.
Preguntas de entrevista para investigadores de PLN
Estas preguntas exploran tu entendimiento de las líneas de investigación actuales y los problemas abiertos. Son comunes en puestos de research scientist o doctorado.
¿Qué es el aprendizaje autosupervisado y por qué ha sido importante en PLN?
El aprendizaje autosupervisado obtiene señal de entrenamiento del propio dato mediante objetivos como MLM o predicción de la siguiente oración, sin etiquetas humanas. Esto permitió preentrenar en enormes corpus de texto y hacer fine-tuning con pocos datos etiquetados, cambiando de base cómo se abordan los benchmarks de PLN.
¿Cuál es la diferencia entre few-shot y zero-shot learning?
Zero-shot learning pide a un modelo afrontar una tarea sin ejemplos previos, apoyándose en seguir instrucciones. Few-shot learning aporta unos pocos ejemplos en el prompt para guiar el comportamiento. Ambos aprovechan la capacidad de generalización de los LLM, pero few-shot suele ser más fiable.
¿Cuáles son los compromisos entre prompt tuning y fine-tuning?
El fine-tuning actualiza los pesos del modelo con datos específicos de la tarea, ofreciendo gran rendimiento pero requiriendo cómputo y una copia del modelo por tarea. El prompt tuning aprende tokens de prompt "blandos" manteniendo congelado el modelo, lo que es mucho más eficiente en parámetros, aunque tiende a rendir peor que el fine-tuning completo en modelos pequeños.
¿Cuáles son las principales limitaciones de las prácticas actuales de evaluación de modelos generativos?
Métricas automáticas como BLEU y ROUGE correlacionan poco con el juicio humano en generación abierta. Los benchmarks se saturan rápido y los modelos pueden sobreajustarse a distribuciones del set de prueba durante el preentrenamiento. No hay un marco consensuado para evaluar factualidad, utilidad o capacidad de razonamiento.
¿Cómo entra el sesgo en los modelos de lenguaje y cómo lo detectas?
El sesgo entra a través de datos de preentrenamiento que reflejan desigualdades históricas o sesgos demográficos. Puedes detectarlo con tareas de sondeo, aumento de datos contrafactual y herramientas como WinoBias o StereoSet. Mitigar es más difícil: el debiasing en fine-tuning puede reducir sesgos superficiales sin abordar problemas representacionales más profundos.
¿Cómo es la investigación en interpretabilidad para transformers?
La interpretabilidad mecanicista intenta revertir ingeniería para entender qué computan cabezas de atención y capas MLP concretas. Los clasificadores de sondeo prueban si las representaciones intermedias codifican propiedades lingüísticas. Ambos enfoques han dado hallazgos interesantes, pero el campo no ha convergido en un marco unificado de qué significa realmente "entender" un transformer.
Las preguntas conceptuales y de investigación tienen respuestas claras. Las de escenarios son donde se distingue a quien ha puesto sistemas de PLN en producción de quien solo ha leído sobre ello.
Preguntas de entrevista de PLN basadas en escenarios
Estas preguntas evalúan cómo abordarías problemas reales con restricciones reales.
Tu modelo de sentimiento rinde mal con datos de redes sociales llenos de jerga. ¿Qué haces?
Empieza con análisis de errores. Identifica qué términos de jerga causan fallos y comprueba si faltan en tu vocabulario de entrenamiento. Después, recopila y etiqueta ejemplos específicos del dominio para hacer fine-tuning, y plantéate añadir un paso de normalización de jerga o usar un tokenizador de subpalabras (como BPE) para reducir problemas de OOV.
¿Cómo reducirías las alucinaciones en un sistema generativo de PLN?
La generación aumentada con recuperación (RAG) fundamenta las respuestas en documentos recuperados, reduciendo la dependencia del modelo en hechos memorizados. También puedes añadir verificación postgeneración, usar temperaturas de muestreo más bajas o hacer fine-tuning con datos que premien explícitamente la precisión factual.
¿Cómo gestionas un conjunto de datos multilingüe?
Un modelo multilingüe preentrenado como mBERT o XLM-R suele ser el mejor punto de partida, ya que maneja muchos idiomas con un solo modelo. Si el rendimiento en un idioma concreto es crítico, considera fine-tuning específico por idioma. Presta mucha atención a la tokenización, ya que algunos idiomas quedan sobresegmentados por tokenizadores entrenados sobre todo en inglés.
¿Cómo detectarías y mitigarías sesgos en un sistema de PLN en producción?
Primero, define qué significa equidad en tu caso: igualdad de tasas de error entre grupos, igualdad de tasas positivas u otra métrica. Audita las salidas del modelo por segmentos demográficos usando conjuntos de evaluación reservados. Las mitigaciones incluyen re-muestrear datos de entrenamiento, ajustar umbrales por grupo en post-procesado o debiasing adversarial durante el fine-tuning.
¿Cómo decides entre un enfoque clásico de ML y un transformer para una tarea de texto?
Empieza por tus datos y restricciones de latencia. Si tienes pocos datos etiquetados, cómputo limitado o requisitos estrictos de tiempo real, un modelo de regresión logística o gradient boosting con características TF-IDF puede superar en la práctica a un transformer ajustado. Los transformers brillan cuando hay suficiente data y cómputo, o cuando la tarea requiere comprensión contextual profunda.
Errores comunes en entrevistas de PLN
El tropiezo más común es saber teoría sin implementación. Quienes pueden recitar la arquitectura transformer a menudo no saben explicar cómo gestionarían un dataset de texto desbalanceado real o cómo ajustar un modelo que sobreajusta. Quien entrevista lo detecta rápido.
Otros dos patrones que perjudican sistemáticamente: ignorar el preprocesado en sus respuestas (la limpieza de texto impacta mucho en la calidad del modelo) y confundir términos similares como stemming vs. lemmatization, o precision vs. recall. Tener clara la distinción, y cuándo importa cada uno, demuestra que has trabajado con datos reales, no solo con libros.
Cómo prepararte para entrevistas de PLN
La preparación más efectiva es construir proyectos pequeños de extremo a extremo: un clasificador de sentimiento, un etiquetador NER, un resumidor sencillo. Te obligan a tomar decisiones reales sobre preprocesado, selección de modelos y evaluación, justo lo que se explora en entrevistas. Nuestro curso Feature Engineering for NLP in Python cubre las habilidades prácticas que más se repiten.
Además de proyectos, dedica tiempo a entender el mecanismo de atención a nivel matemático, no solo conceptual, y ajusta al menos un modelo preentrenado a una tarea nueva. Mantente al día de los avances en LLM con papers y blogs; en roles de investigación se espera que tengas opinión sobre trabajos recientes. Para profundizar en transformers, revisa nuestro Transformer Models for NLP tutorial.
Conclusión
Las entrevistas de PLN ponen a prueba tanto tu soltura conceptual como tu capacidad para razonar problemas reales bajo presión. Lo que espera quien entrevista de una persona recién graduada es muy distinto de lo que busca en un ingeniero senior de ML, y esta guía ha cubierto ambos extremos.
Quienes destacan no son necesariamente los que más teoría saben. Son quienes conectan conceptos con decisiones prácticas, hablan de compromisos y demuestran que han trabajado con texto desordenado del mundo real.
Preguntas frecuentes
¿En qué temas debo centrarme para una entrevista de PLN para principiantes?
Céntrate en los básicos de preprocesado de texto (tokenización, stemming, lemmatization), representaciones clásicas (BoW, TF-IDF), tareas comunes como clasificación de texto y NER, y métricas de evaluación como precisión, recall y F1. Entender por qué importa cada paso pesa más que memorizar definiciones.
¿Necesito saber la arquitectura de transformers para roles intermedios de PLN?
Deberías entender la intuición detrás de la atención y por qué los modelos tipo BERT superan a los anteriores, pero un desglose arquitectónico profundo suele evaluarse más en niveles senior o de investigación. Para roles intermedios, la experiencia práctica ajustando modelos preentrenados pesa más.
¿Cuántas preguntas de PLN suelen aparecer en una entrevista de data science?
Las entrevistas centradas en PLN suelen incluir entre 5 y 10 preguntas técnicas que mezclan conceptos y práctica. Las entrevistas generales de data science pueden tener de 2 a 4 preguntas de PLN junto con estadística, SQL y ML. La profundidad importa más que la amplitud: es mejor debatir un tema a fondo que dar respuestas superficiales a muchos.
¿En qué se diferencian las entrevistas de ingeniero de ML en PLN de las de data scientist?
Las entrevistas de MLE hacen hincapié en despliegue, latencia, escalabilidad y diseño de sistemas: cómo servirías un modelo en producción, gestionar fallos y monitorizar deriva. Las de data scientist se inclinan más hacia decisiones de modelado, estrategia de evaluación y conexión de salidas con métricas de negocio.
¿Qué lenguajes y librerías debo conocer para entrevistas de PLN?
Python es el estándar. Conocer spaCy, NLTK, Hugging Face Transformers y scikit-learn te cubre la mayoría de escenarios. PyTorch se espera cada vez más en niveles intermedios y senior. Es tan importante escribir código limpio y legible en una prueba en vivo como conocer las librerías.
¿Merece la pena crear proyectos de PLN específicamente para preparar entrevistas?
Sí. Un pequeño proyecto de extremo a extremo—aunque sea un clasificador de texto con un dataset público—te da experiencia concreta para responder preguntas de escenario. Quienes entrevistan prefieren sistemáticamente a quien puede referirse a decisiones reales que ha tomado frente a quien describe enfoques de manual.
¿Qué tan al día debo estar en investigación sobre LLM para entrevistas de PLN?
Para roles orientados a investigación, se espera familiaridad con trabajos recientes y opinión sobre problemas abiertos. Para roles aplicados, basta con saber qué pueden y qué no pueden hacer los LLM de forma fiable: no hace falta haber leído todos los papers, pero sí conocer cómo se están desplegando y dónde siguen fallando.
