Skip to content

Citas “zombis” y “fantasmas” en la IA – son diferentes y cómo se originan

Publicado em: Citas “zombis” y “fantasmas” en la IA – son diferentes y cómo se originan

Con esta definición nos estamos refiriendo a dos clases de eventos diferentes. El primer tipo de evento surge debido a la arquitectura de los algoritmos de Lenguajes Grandes (LLM), en cambio el segundo tipo es originado en vulnerabilidades de la arquitectura de programas como Google Scholar. Pero, la contaminación de las referencias, surge en última instancia, por descuidos en los procesos editoriales de las revistas y revisores, y poco cuidado por los autores de los manuscritos. Pasemos a examinar.

Por que se generan citas fantasmas

Las referencias fantasmas siempre han existido incluso antes del uso de los LLM, que además alucinan por una interacción de vulnerabilidades y también son propensos a la sicofancia1 como ya hemos visto en otro post.

Las citas fantasmas se generan principalmente debido a una combinación de negligencia humana, presiones académicas, fallos en la infraestructura de indexación y el uso reciente de la inteligencia artificial (IA). Este fenómeno ocurre cuando los autores incluyen referencias bibliográficas en sus trabajos sin haber consultado realmente las fuentes o, en los casos más graves, haciendo referencia a obras que no existen, como se indica en el texto Citas fantasmas en artículos científicos: problemática creciente ante el uso de la inteligencia artificial2.

Es común que los investigadores copien listas de referencias de otros artículos sin verificar las fuentes originales. De hecho, se estima que solo el 20% de quienes citan un trabajo realmente lo han leído; el resto simplemente propaga errores previos como en indicado en el artículo Read before you cite!3

El uso de la IA produce “alucinaciones” porque los modelos de lenguaje (LLM) como ChatGPT no consultan una base de datos de “verdad”, sino que utilizan probabilidades para adivinar la siguiente palabra para producir una respuesta sintácticamente correcta. Esto provoca, en algunos casos, alucinaciones donde el sistema inventa metadatos de citas (autores, títulos, años) que parecen coherentes pero son ficticios. Este problema se ha documentado con frecuencia, es bien conocido y ha sido tema recurrente en posts publicado en SciELO en Perspectiva.

Una vulnerabilidad arquitectónica de Google Académico es lo que crea registros (CITATION) para referencias que no puede vincular con documentos reales. Estos fragmentos —inferidos de bibliografías en lugar de fuentes verificadas— permiten que las referencias inventadas acumulen citas y aparenten legitimidad, sostiene el autor Tay en la publicación Why Ghost References Still Haunt Us in 20254.

Esto ocurre por ejemplo, cuando los errores de Wikipedia se propagan a las fuentes publicadas y viceversa. Los errores en las listas de referencias de artículos influyentes son copiados por autores posteriores que no verifican sus fuentes. Una errata tipográfica se convierte en un artículo que decenas de investigadores afirman haber leído.

De manera similar, una vez que aparece una referencia fantasma (humana o generada por LLM), este proceso de citogénesis puede ser acelerado tanto por LLM como por humanos descuidados.

Lo que da miedo es que, incluso si de ahora en adelante los LLM no alucinaran con referencias fantasmas “por su cuenta” y siempre se respaldaran en fuentes web, ¡aún podrían encontrar referencias fantasmas existentes y tal vez citarlas!

Lo que ha cambiado no es la existencia de referencias fantasma, sino su potencial escalabilidad y capacidad de descubrimiento. GenAI puede producir más contenido, más rápido, con citas que parecen fiables, y cuando se intenta la verificación mediante LLM con búsqueda web, estas herramientas pueden ser engañadas por la contaminación preexistente que los humanos crearon durante décadas.

El mecanismo [CITATION] siempre ha sido una vulnerabilidad estructural. Permite que referencias falsas, ya sean creadas por error humano o por alucinaciones de GenAI, entren en el sistema de comunicación académica con una apariencia de legitimidad. Una vez que un registro [CITATION] existe y acumula citas, se vuelve cada vez más difícil distinguirlo de un artículo real que simplemente no está disponible en línea.

La otra vulnerabilidad es que los sistemas RAG (Retrieval-Augmented Generation) que utilizan búsquedas web generales pueden ser engañados. Cuando un LLM busca en la web para verificar una cita, puede encontrar páginas que citan la referencia fantasma, concluyendo así que el artículo debe ser real. Esta vulnerabilidad existía mucho antes de GenAI, lo que cambia es la velocidad a la que se generan nuevas referencias fantasma y la rapidez con la que se propagan por la web, lo que dificulta cada vez más la verificación de citas.

Las citas zombis

Para diferenciar una cita fantasma de una cita zombi, la clave principal reside en la existencia real del documento citado y su estatus dentro del registro académico, o sea comprobando las fuentes.

Definición de cita Fantasma (Referencia inexistente): Es una mención a una obra que simplemente no existe. Se genera por “alucinaciones” de la inteligencia artificial, errores tipográficos humanos, copias descuidadas de bibliografías o la fusión accidental de dos artículos reales en uno ficticio. Cómo identificarla: haciendo una búsqueda del original; no es posible localizar, acceder ni verificar el documento fuente en ninguna base de datos autorizada.

Definición de cita Zombi (Artículo retractado): Es una cita a un trabajo que de hecho sí existe (es real y se puede localizar), pero que ha sido retractado por la revista original debido a fraude, errores graves o falta de integridad.

Pero, el artículo sobrevive “después de su muerte” académica porque otros autores siguen citándolo, a menudo sin advertir que el trabajo ha sido invalidado. Para identificarlo debe hacerse una búsqueda del original. El documento se encontrará físicamente (en PDF o HTML), pero debería tener un aviso de “Retracted” (Retractado) en la página de la editorial.

Esos artículos se pueden detectar consultando la base de datos Retraction Watch o mediante gestores de referencias como Zotero y EndNote, que marcan automáticamente los artículos retractados. En cambio Google Académico no marca las retractaciones, por lo que un artículo zombi parecerá un artículo legítimo en esta plataforma.

En Google Académico suelen aparecer con el prefijo [CITACIÓN] o [CITATION], generalmente no tienen hipervínculo al texto completo, carecen de resumen y sus metadatos suelen estar incompletos o truncados.

Como ejemplo tomemos el caso de una referencia fantasma que lleva acumuladas 74 citas en Google Académico a la hora de escribir este post5:

[CITATION] Education governance and datafication. B Williamson, N Piattoeva – Education and Information Technologies, 2022

Save Cite Cited by 74 Related articles

Fuente:https://scholar.google.com/scholar?cluster=1795648861839846375&hl=en&inst=14102473421921925766&oi=scholarr

Esta referencia específica no corresponde a ninguna publicación aceptada. Pero, sin importar la situación, las citas de artículos retractados continúan siendo citados con bastante frecuencia como indica una reciente publicación en Science, Silence greets requests to flag retracted studies5

La vulnerabilidad más crítica es que Google Académico crea registros de referencias que detecta en las bibliografías de los documentos fuente pero que no puede vincularlos con un documento real en sus índices. Estos registros aparecen en los resultados de búsqueda con el prefijo [CITACIÓN] con apariencia de legitimidad, aunque suelen carecer de hipervínculo al texto completo, resumen o DOI, acumulan números de citas, lo que engaña a investigadores y sistemas de IA haciéndoles creer que la obra está vigente.

Como consecuencia generan una contaminación de la web y se propagan por los sistemas de IA-RAG. El hecho de que estas citas existan en Google Académico genera un ciclo de retroalimentación conocido como citogénesis (validación circular).

Conclusión

El enfoque de infraestructura de este análisis es importante, pero no debemos descuidar las fallas de control humano que permiten que las referencias fantasmas y zombis se propaguen.

La verificación de referencias debería formar parte de los procesos editoriales y de revisión por pares. En la práctica, rara vez lo es. Los revisores se centran en la metodología, la argumentación y la contribución, no en la existencia real de cada obra citada. Los correctores de estilo verifican la coherencia del formato, no la existencia real de la fuente.

La verdadera historia es más antigua y más incómoda. Las referencias fantasma siempre han existido, creadas y propagadas por la negligencia humana: errores tipográficos, copias descuidadas, citas sin leer, mezclas de artículos similares.

Y cuando intentamos verificar referencias usando LLM con búsquedas web, estas herramientas son engañadas por la contaminación preexistente que los humanos crearon durante décadas… y la contaminación se autoalimenta y sigue (aunque se reconoce que esos métodos no son infalibles, pero ayudan, como señala ZHANNG en el artículo A Comparative Analysis of Faithfulness Metrics and Humans in Citation Evaluation6).

En conclusión, mientras que el fantasma es un producto de la imaginación (humana o artificial) o del error de registro, el zombi es un “cadáver” académico que se niega a morir porque la comunidad científica sigue propagando sus hallazgos erróneos mediante nuevas citas.

Notas

1. SPINAK, E. La sicofancia en la IA: el riesgo de la complacencia [online]. SciELO en Perspective, 2026 [viewed 22 March 2026]. Available from: https://blog.scielo.org/es/2026/03/13/la-sicofancia-en-la-ia-el-riesgo-de-la-complacencia/

2. PAZ-ENRIQUE L. Citas fantasmas en artículos científicos: problemática creciente ante el uso de la inteligencia artificial. Revista Médica Electrónica [online]. 2023, vol 45, no. 3 [viewed 01 April 2026]. Available from: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1684-18242023000600892

3. SIMKIN, M.V., ROYCHOWDHURY, V.P. . Read before you cite!. ArXiv. 2002.[viewed 01 April 2026].https://doi.org/10.48550/arXiv.cond-mat/0212043. Available from: https://arxiv.org/abs/cond-mat/0212043

4. TAY, A. Why Ghost References Still Haunt Us in 2025—And Why It’s Not Just About LLMs. Aaron Tay’s Musings about Librarianship 2025.[viewed 01 April 2026]. Available from: https://aarontay.substack.com/p/why-ghost-references-still-haunt

5. BRAINARD, J. Silence greets requests to flag retracted studies. Science. 2022 vol 377, no. 6601. [viewed 01 April 2026]. https://doi.org/10.1126/science.add6988. Available from: https://www.science.org/doi/epdf/10.1126/science.add6988

6. ZHANNG, W.et al.. A Comparative Analysis of Faithfulness Metrics and Humans in Citation Evaluation. ArXiv. 2024. Available from: https://arxiv.org/pdf/2408.12398

Referencias

BRAINARD, J. Silence greets requests to flag retracted studies. Science. 2022 vol 377, no. 6601. [viewed 01 April 2026]. https://doi.org/10.1126/science.add6988. Available from: https://www.science.org/doi/epdf/10.1126/science.add6988

PAZ-ENRIQUE L. Citas fantasmas en artículos científicos: problemática creciente ante el uso de la inteligencia artificial. Revista Médica Electrónica [online]. 2023, vol 45, no. 3 [viewed 01 April 2026]. Available from: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1684-18242023000600892

SIMKIN, M.V., ROYCHOWDHURY, V.P. Read before you cite!. ArXiv. 2002.[viewed 01 April 2026].https://doi.org/10.48550/arXiv.cond-mat/0212043. Available from: https://arxiv.org/abs/cond-mat/0212043

SPINAK, E. La sicofancia en la IA: el riesgo de la complacencia [online]. SciELO en Perspective, 2026 [viewed 22 March 2026]. Available from: https://blog.scielo.org/es/2026/03/13/la-sicofancia-en-la-ia-el-riesgo-de-la-complacencia/

TAY, A. Why Ghost References Still Haunt Us in 2025—And Why It’s Not Just About LLMs. Aaron Tay’s Musings about Librarianship 2025.[viewed 01 April 2026]. Available from: https://aarontay.substack.com/p/why-ghost-references-still-haunt

ZHANNG, W.et al.. A Comparative Analysis of Faithfulness Metrics and Humans in Citation Evaluation. ArXiv. 2024. Available from: https://arxiv.org/pdf/2408.12398

 

Sobre Ernesto Spinak

Colaborador de SciELO, Ingeniero en Sistemas y Lic. en Biblioteconomía, con Diploma de Estudios Avanzados pela Universitat Oberta de Catalunya y Maestría en “Sociedad de la Información” por la Universidad Oberta de Catalunya, Barcelona – España. Actualmente tiene una empresa de consultoría que atiende a 14 instituciones de gobierno y universidades en Uruguay con proyectos de información.

 

Links externos

Retraccion Watch

Google Scholar

Fonte: Citas “zombis” y “fantasmas” en la IA – son diferentes y cómo se originan
Feed: SciELO em Perspectiva
Url (Fonte): blog.scielo.org
Back To Top