Research8 min read

Búsqueda cross-modal explicada: una consulta, todos los formatos

La búsqueda cross-modal te permite encontrar resultados en PDFs, vídeos, audio e imágenes con una sola consulta. Así es como los embeddings multimodales lo hacen posible.

By Scholaris Team

El problema de los silos

La investigación moderna no vive en un solo formato. Un proyecto típico puede involucrar una pila de artículos en PDF, una conferencia grabada, una entrevista en podcast con un investigador destacado, diapositivas de la presentación de un colaborador y un puñado de diagramas guardados como imágenes. Cada uno de estos contiene información valiosa, pero todos viven en silos separados.

Si quieres encontrar toda mención de un concepto particular a través de todos estos materiales, tienes un problema. Puedes buscar en tus PDFs por palabras clave, pero eso no cubre el vídeo de la conferencia. Quizás recuerdas que alguien discutió el tema en ese podcast, pero avanzar y retroceder por noventa minutos de audio para encontrar el segmento correcto es tedioso. Y buena suerte buscando el contenido de una imagen o diagrama.

El resultado es que los investigadores acaban con conocimiento fragmentado. Sabes que la información existe en algún lugar de tu colección, pero encontrarla implica alternar entre diferentes herramientas, diferentes métodos de búsqueda y, a menudo, simplemente confiar en la memoria.

Qué significa la búsqueda cross-modal

La búsqueda cross-modal es la capacidad de buscar a través de diferentes tipos de medios, o modalidades, usando una sola consulta. Escribes una consulta de texto y obtienes resultados de PDFs, segmentos de vídeo, transcripciones de audio e imágenes, todo clasificado por relevancia en una lista unificada.

La parte "cross-modal" es lo que la diferencia de simplemente buscar en cada formato por separado. No se trata solo de ejecutar una búsqueda de texto en PDFs y una búsqueda separada en transcripciones y luego combinar las listas. En su lugar, todos estos tipos de contenido diferentes se representan en el mismo espacio de significado, por lo que el sistema puede comparar directamente una consulta de texto con un fotograma de vídeo, una transcripción de audio o un párrafo de un artículo.

El espacio de significado compartido

La idea central detrás de la búsqueda cross-modal son los embeddings multimodales. En Entender la búsqueda semántica, describimos cómo los embeddings de texto convierten palabras en representaciones numéricas que capturan el significado. Los embeddings multimodales extienden esta idea a otros formatos.

Un modelo de embedding multimodal puede tomar un fragmento de texto, una imagen o un fotograma de vídeo y producir el mismo tipo de representación numérica para todos ellos. Esto significa que un diagrama de mitocondrias, un párrafo que describe la función mitocondrial y un fotograma de vídeo mostrando una diapositiva sobre mitocondrias en una conferencia terminan como puntos cercanos en el mismo espacio de significado.

Cuando buscas "estructura mitocondrial", el sistema convierte tu consulta en este espacio compartido y luego encuentra las coincidencias más cercanas independientemente de su formato original. El diagrama, el pasaje de texto y el fotograma de vídeo aparecen todos como resultados porque están semánticamente cerca de tu consulta.

Cómo funciona, paso a paso

La búsqueda cross-modal requiere varios componentes trabajando juntos. Esto es lo que ocurre entre bastidores.

Procesamiento de texto (PDFs y documentos)

El texto de los PDFs se extrae y divide en pasajes. Cada pasaje se convierte en un embedding usando un modelo multimodal. Para documentos escaneados, el OCR primero convierte las imágenes de página en texto. Tanto el texto como las propias imágenes de las páginas pueden codificarse como embeddings.

Procesamiento de vídeo

El vídeo se maneja en dos pistas paralelas. La pista visual extrae fotogramas clave, seleccionados en los cambios de escena y a intervalos regulares, y codifica cada uno como una imagen. La pista de audio extrae el audio, lo pasa por un modelo de habla a texto para producir una transcripción y luego codifica los pasajes de la transcripción. La diarización de hablantes identifica quién habla en cada segmento, para que puedas buscar lo que dijo un hablante específico.

El resultado es que un vídeo de una hora de conferencia se vuelve buscable de tres maneras: por lo que se muestra en pantalla (diapositivas, diagramas, demostraciones), por lo que se dice (el contenido hablado) y por quién lo dijo.

Procesamiento de audio

Los archivos de audio como podcasts y entrevistas pasan por transcripción y diarización de hablantes. La transcripción se divide en segmentos con marca de tiempo y se codifica. Cuando buscas y encuentras una coincidencia, obtienes la marca de tiempo exacta para que puedas saltar a ese momento.

Procesamiento de imágenes

Las imágenes, ya sean independientes o extraídas de documentos, se codifican directamente por el modelo multimodal. Esto significa que una fotografía de un montaje de laboratorio, un gráfico o un diagrama dibujado a mano son todos buscables describiendo lo que contienen.

La búsqueda

Cuando escribes una consulta, se codifica en el mismo espacio compartido. El sistema calcula la similitud entre tu consulta y cada pieza de contenido codificada en todos los formatos. Los resultados se clasifican por relevancia y se presentan en una lista unificada, con cada resultado enlazando a la página específica, la marca de tiempo o el fotograma de donde proviene.

Escenarios reales de investigación

Para hacerlo más concreto, aquí tienes algunas formas en que la búsqueda cross-modal cambia cómo puedes trabajar con tus materiales.

Encontrar un diagrama que recuerdas vagamente

Recuerdas haber visto un diagrama útil sobre redes reguladoras de genes, pero no recuerdas si estaba en un artículo, en unas diapositivas o se mostró durante una charla grabada. En lugar de buscar en cada fuente por separado, buscas "diagrama de red reguladora de genes" y lo encuentras inmediatamente, ya sea una figura de un PDF, una diapositiva capturada como fotograma de vídeo o un archivo de imagen.

Localizar una explicación hablada

Un colega mencionó una analogía interesante sobre el plegamiento de proteínas durante un seminario grabado. Buscas "analogía del plegamiento de proteínas" y el sistema encuentra el momento exacto de la grabación donde lo dijo, con una marca de tiempo en la que puedes hacer clic para saltar directamente.

Reunir toda la evidencia sobre un tema

Estás escribiendo una sección de revisión bibliográfica sobre "efectos fuera de diana de CRISPR". Una búsqueda cross-modal reúne párrafos relevantes de múltiples artículos, un segmento de un panel de discusión grabado donde investigadores debatieron el tema, y una figura de una presentación mostrando tasas de mutación fuera de diana. Una consulta, toda tu evidencia.

Buscar por contenido visual

Necesitas un tipo específico de gráfico, digamos una curva de supervivencia, de algún lugar de tu colección. Buscas "curva de supervivencia de Kaplan-Meier" y el sistema encuentra figuras coincidentes en tus PDFs y fotogramas coincidentes de presentaciones en vídeo, incluso si el pie de la figura nunca usó el término "Kaplan-Meier".

Cómo Scholaris hace que esto funcione localmente

Scholaris implementa la búsqueda cross-modal usando una combinación de modelos de IA que se ejecutan enteramente en tu hardware. Los componentes clave son:

  • Qwen3-VL para embeddings multimodales: el modelo que coloca texto, imágenes y fotogramas de vídeo en el mismo espacio de significado
  • Parakeet (o Whisper en hardware AMD) para transcribir audio y vídeo en texto buscable
  • Diarización de hablantes para identificar hablantes individuales en las grabaciones
  • FFmpeg para extraer fotogramas clave y pistas de audio de archivos de vídeo

Todo este procesamiento ocurre cuando conviertes un archivo al formato SPDF. El contenedor SPDF almacena el contenido original junto con todos los embeddings, transcripciones y fotogramas extraídos, haciendo que todo sea buscable al instante.

Como todo se ejecuta localmente, no hay límites de tamaño de archivo impuestos por una API en la nube, no hay preocupaciones de privacidad por subir investigación sensible y no hay costes recurrentes. La contrapartida es que procesar archivos de vídeo grandes lleva tiempo real, especialmente sin una GPU dedicada, pero una vez que un archivo está procesado, buscar en él es casi instantáneo.

Limitaciones actuales

La búsqueda cross-modal es genuinamente útil, pero tiene límites que vale la pena entender.

La comprensión visual no es perfecta. Los modelos multimodales son mejores reconociendo patrones visuales comunes que altamente especializados. Un modelo de propósito general reconocerá fácilmente un "gráfico de barras" pero puede tener dificultades para distinguir entre tipos específicos de visualizaciones científicas especializadas.

La calidad del audio importa. La precisión de la transcripción depende de la claridad del audio. Una conferencia bien grabada producirá excelentes transcripciones buscables. Una grabación ruidosa de una sala de conferencias llena tendrá más errores, lo que afecta la calidad de búsqueda del contenido hablado.

El tiempo de procesamiento es real. Convertir un vídeo de una hora en un SPDF totalmente buscable lleva tiempo, aproximadamente entre quince y veinte minutos en una GPU moderna. Este es un coste único por archivo, pero significa que la búsqueda cross-modal requiere cierta inversión inicial en procesar tu colección.

A pesar de estas limitaciones, la capacidad de buscar en todos tus materiales de investigación con una sola consulta es un avance significativo respecto al enfoque aislado al que la mayoría de investigadores están acostumbrados. No reemplaza la lectura cuidadosa, pero asegura que cuando buscas, nada se quede fuera porque resultó estar en el formato equivocado.