Culpa del Excel, los científicos tuvieron que cambiarles el nombre a los genes humanos

Excel es un gigante en el mundo de las hojas de cálculo y los científicos lo utilizan regularmente para realizar un seguimiento de su trabajo e incluso realizar ensayos clínicos. Pero su configuración predeterminada se diseñó teniendo en cuenta aplicaciones más mundanas, por lo que cuando un usuario ingresa el símbolo alfanumérico de un gen en una hoja de cálculo, como MARCH1, abreviatura de "Membrane Associated Ring-CH-Type Finger 1", Excel lo convierte en una fecha: 1-mar.

"Hay decenas de miles de genes en el genoma humano: minúsculos giros de ADN y ARN que se combinan para expresar todos los rasgos y características que nos hacen únicos a cada uno de nosotros. A cada gen se le asigna un nombre y un código alfanumérico, conocido como símbolo, que los científicos utilizan para coordinar la investigación. Pero durante el año pasado, se ha cambiado el nombre de unos 27 genes humanos, todo porque Microsoft Excel siguió interpretando mal sus símbolos como fechas". Así introduce el portal The Verge una noticia científica, que muestra cómo la ciencia se ve condicionada por una planilla de cálculo.

El periodista James Vincent recopiló la información al respecto y, en algun aspecto, resultó desopilante.

Excel es un gigante en el mundo de las hojas de cálculo y los científicos lo utilizan regularmente para realizar un seguimiento de su trabajo e incluso realizar ensayos clínicos. Pero su configuración predeterminada se diseñó teniendo en cuenta aplicaciones más mundanas, por lo que cuando un usuario ingresa el símbolo alfanumérico de un gen en una hoja de cálculo, como MARCH1, abreviatura de "Membrane Associated Ring-CH-Type Finger 1", Excel lo convierte en una fecha: 1-mar.

Se trata de datos extremadamente frustrantes, incluso peligrosos y corruptos que los científicos tienen que revisar a mano para restaurarlos. También está sorprendentemente extendido y afecta incluso al trabajo científico revisado por pares. Un estudio de 2016 examinó los datos genéticos compartidos junto con 3597 artículos publicados y descubrió que aproximadamente una quinta parte se había visto afectada por errores de Excel.

"Es muy, muy molesto", dijo al portal The Verge Dezs Módos, biólogo de sistemas del Quadram Institute en el Reino Unido . Módos, cuyo trabajo consiste en analizar datos genéticos recién secuenciados, dice que los errores de Excel ocurren todo el tiempo, simplemente porque el software es a menudo lo primero que se tiene a mano cuando los científicos procesan datos numéricos. "Es una herramienta muy extendida y si eres un poco analfabeto computacional, la usarás", dice. "¡Durante mis estudios de doctorado yo también lo hice!".

Culpa del Excel, los científicos tuvieron que cambiarles el nombre a los genes humanos

Tampoco hay una solución fácil. Excel no ofrece la opción de desactivar este formateo automático, y la única forma de evitarlo es cambiar el tipo de datos para columnas individuales . Incluso entonces, un científico puede corregir sus datos pero exportarlos como un archivo CSV sin guardar el formato. O, otro científico podría cargar los datos sin el formato correcto, cambiando los símbolos de genes a fechas. El resultado final es que, si bien los usuarios expertos de Excel pueden evitar este problema, es fácil introducir errores.

Sin embargo, llegó la ayuda en forma del organismo científico a cargo de estandarizar los nombres de los genes, el Comité de Nomenclatura Genética de HUGO o HGNC. Esta semana, el HGNC publicó nuevas pautas para la denominación de genes, incluidos los "símbolos que afectan el manejo y la recuperación de datos". A partir de ahora, dicen, los genes humanos y las proteínas que expresaron serán nombrados con un ojo en el formato automático de Excel. Eso significa que el símbolo MARCH1 ahora se ha convertido en MARCHF1, mientras que SEPT1 se ha convertido en SEPTIN1, y así sucesivamente. HGNC almacenará un registro de símbolos y nombres antiguos para evitar confusiones en el futuro.

Hasta ahora, los nombres de unos 27 genes se han cambiado así durante el año pasado, dijo Elspeth Bruford, coordinadora de HGNC, a The Verge, pero las pautas en sí no se anunciaron formalmente hasta esta semana. "Consultamos a las comunidades de investigación respectivas para discutir las actualizaciones propuestas, y también notificamos a los investigadores que habían publicado sobre estos genes específicamente cuando los cambios se aplicaron", dice Bruford.

Como deja en claro Bruford, el arte de nombrar genes se basa en gran medida en el consenso. Al igual que los lexicógrafos encargados de actualizar los diccionarios, el Comité de Nomenclatura Genética debe ser sensible a las necesidades de las personas que se verán más afectadas por su trabajo.

Este no siempre fue el caso, claro. En los primeros días fronterizos de la genética, la denominación de genes era a menudo un campo de juego para los científicos creativos , lo que lleva a genes notorios como "sonic hedgehog" (sí, llamado así por S onic) e "Indy" (abreviatura de "No estoy muerto" todavía "; una referencia a la función del gen, que puede duplicar la vida útil de las moscas de la fruta cuando mutan).

Ahora, sin embargo, el HGNC ha tomado las cosas firmemente en sus manos, y las pautas actuales no ceden mucho terreno a la fantasía o al ego. La atención se centra en preocupaciones prácticas: ¿cómo minimizamos la confusión? Por esa razón, los símbolos de los genes deben ser únicos y los nombres de los genes deben ser breves y específicos, dice el comité. No pueden usar subíndice o superíndice; solo puede contener letras latinas y números arábigos; y no debe deletrear nombres o palabras, particularmente las ofensivas (una regla que debería ser verdadera "idealmente en cualquier idioma").

Y aunque la decisión de cambiar el nombre de los genes no se toma a la ligera, no es inusual, dice Bruford. Muchos símbolos genéticos que se pueden leer como sustantivos se han renombrado para evitar falsos positivos durante las búsquedas, por ejemplo. En el pasado, CARS se convirtió en CARS1, WARS cambió a WARS1 y MARS se ajustó a MARS1. Se han realizado otros cambios para evitar insultos.

"Siempre tenemos que imaginar a un médico teniendo que explicarle a un padre que su hijo tiene una mutación en un gen en particular", dice Bruford. "Por ejemplo, HECA solía tener el nombre de gen 'headcase homolog (Drosophila)', llamado así por el gen equivalente en la mosca de la fruta, pero lo cambiamos a 'hdc homolog, regulador del ciclo celular' para evitar posibles delitos".

Pero Bruford dice que esta es la primera vez que las pautas se han reescrito específicamente para contrarrestar los problemas causados por el software. Hasta ahora, las reacciones parecen ser extremadamente positivas, algunos incluso dirían alegres.

Esta nota habla de: