¿Qué significa SPDF?

SPDF significa Semantic PDF, un formato de documento universal diseñado para hacer que cualquier tipo de contenido sea profundamente buscable mediante IA. Aunque el nombre hace referencia a PDF, el formato SPDF va mucho más allá de los documentos tradicionales. Sirve como un contenedor unificado para PDFs, vídeos, grabaciones de audio e imágenes, todo enriquecido con embeddings semánticos que permiten búsqueda y recuperación inteligentes.

El formato SPDF se creó para resolver un problema fundamental en la investigación y la gestión del conocimiento: los formatos de archivo tradicionales almacenan contenido pero no significado. Un PDF convencional contiene texto e información de diseño, pero no tiene comprensión de lo que el texto realmente dice. SPDF cierra esa brecha al emparejar cada pieza de contenido con un embedding vectorial denso que captura su significado semántico.

Por qué los PDFs normales no son suficientes

Los PDFs estándar fueron diseñados para la impresión y la visualización, no para la comprensión por parte de máquinas. Cuando buscas dentro de un PDF normal, estás limitado a la coincidencia exacta de palabras clave. Si un artículo habla de "arquitecturas de redes neuronales" pero tú buscas "modelos de aprendizaje profundo", una búsqueda estándar en PDF no devolverá nada, aunque los conceptos estén estrechamente relacionados.

Más allá de las limitaciones en la búsqueda de texto, los PDFs convencionales tienen otras carencias para los flujos de trabajo de investigación:

Sin comprensión semántica: la búsqueda es puramente léxica, pasando por alto sinónimos, paráfrasis y conceptos relacionados.
Sin soporte cross-modal: un PDF no puede vincular su texto con videoconferencias relacionadas, grabaciones de audio o descripciones de figuras de forma unificada.
Extracción de metadatos deficiente: el título, los autores y los datos de publicación están incrustados en el diseño visual en lugar de en datos estructurados, lo que hace que la extracción automatizada no sea fiable.
Sin fragmentación ni segmentación: no existe un concepto integrado de segmentos de texto significativos optimizados para la recuperación.

SPDF aborda cada una de estas limitaciones añadiendo capas estructuradas de información semántica sobre el contenido original.

La estructura de SPDF

Un archivo SPDF es un contenedor estructurado con varios componentes clave que trabajan juntos para permitir la búsqueda y recuperación inteligentes.

Metadatos

Cada SPDF incluye metadatos ricos y estructurados extraídos del documento fuente:

Título, autores, fecha de publicación y DOI
Información del archivo fuente y detalles del formato
Marcas de tiempo de procesamiento y versiones de los modelos utilizados
Etiquetas personalizadas y asociaciones de biblioteca

Estos metadatos se extraen automáticamente durante la conversión usando modelos especializados de OCR y extracción, aunque los usuarios también pueden editarlos y corregirlos manualmente.

Fragmentos (Chunks)

El contenido del documento se divide en fragmentos semánticamente significativos, cada uno representando una unidad coherente de información como un párrafo, una sección o el pie de una figura. Cada fragmento almacena:

El contenido textual en bruto
Su posición dentro del documento fuente (número de página, cuadro delimitador)
Un identificador único para citas precisas

La fragmentación se realiza de forma inteligente, respetando los límites de párrafos y secciones en lugar de dividir en conteos arbitrarios de caracteres. Esto asegura que cada fragmento contenga un pensamiento completo, lo que mejora tanto la relevancia de la búsqueda como la precisión de las citas.

Embeddings

Este es el corazón de lo que hace potente a SPDF. Cada fragmento se empareja con un embedding vectorial denso generado por un modelo de embedding multimodal. Estos embeddings capturan el significado semántico del contenido en un espacio vectorial de alta dimensión donde los conceptos similares se agrupan.

Scholaris utiliza el modelo Qwen3-VL-Embedding, que genera embeddings unificados para texto, imágenes y fotogramas de vídeo. Esto significa que una consulta de texto como "gráfico mostrando la pérdida de entrenamiento a lo largo de las épocas" puede coincidir con una figura en un documento incluso si el pie de la figura no contiene esas palabras exactas.

Los embeddings soportan Matryoshka Representation Learning (MRL), lo que permite ajustar las dimensiones de 64 a 2048 según los requisitos de precisión y almacenamiento de tu configuración.

Páginas y contenido visual

Para fuentes PDF, el SPDF almacena información a nivel de página incluyendo imágenes de vista previa y la distribución espacial de los bloques de texto. Para fuentes de vídeo y audio, el formato almacena:

Fotogramas de vídeo: fotogramas clave extraídos en los cambios de escena y a intervalos fijos, cada uno con su propio embedding
Segmentos de vídeo: secciones con código de tiempo con texto transcrito y etiquetas de hablante
Segmentos de audio: segmentos de habla transcritos con marcas de tiempo y diarización de hablantes

Esta estructura unificada es lo que permite la búsqueda cross-modal, donde una sola consulta puede devolver resultados de documentos de texto, grabaciones de vídeo y archivos de audio simultáneamente.

Una de las funcionalidades más potentes que habilita el formato SPDF es la búsqueda cross-modal. Dado que texto, imágenes, fotogramas de vídeo y transcripciones de audio existen todos en el mismo espacio de embeddings, puedes buscar en todos ellos con una sola consulta.

Por ejemplo, imagina que tienes una biblioteca que contiene un artículo de investigación (PDF), una charla grabada de una conferencia (vídeo) y una entrevista en un podcast (audio), todos relacionados con el mismo tema. Con SPDF, una consulta de búsqueda como "limitaciones de los mecanismos de atención" devolvería:

El párrafo relevante del PDF
El segmento del vídeo donde el ponente habla del tema (con una marca de tiempo a la que puedes saltar)
El clip de audio del podcast donde el entrevistado menciona las limitaciones

Cada resultado incluye una cita precisa: números de página para PDFs, marcas de tiempo para vídeo y audio. Esto hace trivial rastrear cualquier hallazgo hasta su fuente original.

Cómo Scholaris crea archivos SPDF

Cuando subes un documento a Scholaris, un pipeline de múltiples etapas lo procesa al formato SPDF:

Extracción de texto: los modelos de OCR (GLM-OCR) extraen texto de cada página, manejando documentos escaneados, escritura a mano y diseños complejos.
Detección de metadatos: se identifican título, autores, fechas y otros metadatos a partir de la estructura del documento.
Fragmentación inteligente: el texto extraído se segmenta en fragmentos semánticamente coherentes.
Generación de embeddings: cada fragmento pasa por el modelo de embedding multimodal para producir su representación vectorial.
Indexación: los fragmentos y embeddings se almacenan e indexan para una recuperación rápida.

Para archivos de vídeo, los pasos adicionales incluyen extracción de audio, transcripción del habla con diarización de hablantes, extracción de fotogramas clave y embedding a nivel de fotograma. Para archivos de audio, el proceso incluye transcripción, identificación de hablantes y embedding a nivel de segmento.

Todo el pipeline se ejecuta localmente en tu máquina, asegurando que tus documentos nunca se envíen a servidores externos. La velocidad de procesamiento depende de tu hardware: un PDF de 15 páginas tarda unos tres minutos en una NVIDIA RTX 3070, mientras que un vídeo de una hora tarda aproximadamente entre 15 y 20 minutos.

Empezar con SPDF

Si estás listo para comenzar a construir tu propia biblioteca de documentos semánticos, consulta nuestra guía de Primeros pasos con Scholaris. Te guiará a través de la instalación, la subida de tu primer documento y la ejecución de tu primera búsqueda semántica.

El formato SPDF es la base de todo lo que hace Scholaris. Al transformar documentos estáticos en objetos semánticamente ricos y buscables, convierte tu biblioteca personal en una base de conocimiento inteligente que entiende lo que tus documentos significan, no solo las palabras que contienen.