Hace unos meses Alejandro Piscitelli -uno de los iberoamericanos que mejor entienden el modo en que se ligan y deberían ligarse las ciencias sociales y las nuevas tecnologías-, escribió una nota en educ.ar sobre el H-Bot y las consecuencias posibles del desarrollo acelerado de ese tipo de herramientas, en especial para los historiadores (“Robots que «saben» mucha historia"). Intento decir algo al respecto.
El h-bot es un dispositivo que busca en internet información de interés histórico. Lo diseñó Daniel Cohen, uno de los historiadores más reconocidos en el campo de la Digital History (link a blog). Y su origen está ligado a investigaciones en torno al modo en que Google recupera e indexa información de la web (el artículo de Paul Vitanyi y Rudi Cilibrasi es un clásico). Básicamente (muy básicamente) el procesamiento de dos o más palabras tipeadas en la caja de texto del buscador más importante en la actualidad (por ejemplo, “salmón” y “solari”) trabaja sobre un índice de palabras que Google construye y una serie de ubicaciones asociadas (eso significa indexar: google no revisa en cada búsqueda una y otra vez todas las páginas que previamente detectó): entonces si “salmón” aparece en las páginas 1,6,9,1450, 2560,… y “solari” aparece en las páginas 6,7,25,1451,2560,…; las páginas pertenecientes a ambas series nos dan la serie defintiva: 6,2560,… El problema es ordenar esta última serie: ¿cuál de esas dos páginas del ejemplo irá a la cabeza del resultado de la búsqueda? La que corresponde a la compañía de pesca de W. Solari, digamos, o la que informa sobre la interpretación que el indio solari hizo del tema de Andrés Calamaro? Una de las razones por las que existen opiniones muy adversas sobre los alcances de los recursos online como instrumentos de la producción de conocimiento científico, es precisamente que, aún si logramos visitar todos las páginas que surgen como resultado de la búsqueda (en este caso dos), bien puede ser que la información recolectada sea errónea. La ausencia de un control académico, erudito, sobre la información vertida en las páginas web visitadas aleja las búsquedas online de los procedimientos heurísticos ligados a la investigación formal. La sentencia presupone un dato que los investigadores que la discuten no niegan: un porcentaje mayúsculo en internet es inexacto o impreciso. Lo que este robot logra es establecer una ponderación distinta al pagerank de Google, pensada esta vez para datos históricos. Recuperando infomación, ponderándola y luego consensuando un resultado, H-bot es capaz de responder cuándo nació Salman Rushdie… pero no es capaz de explicar cómo es que sigue vivo. Se puede probar aquí.
William J. Turkel, otro digital historian, indaga sobre el algoritmo que da origen a este tipo de desarrollos computacionales, el NGD (Normalized Google Distance, en el texto de Vitanyi y Clibrasi). En uno de sus últimos post en su blog, Digital History Hacks, Turkel pretende indagar sobre las representaciones populares y su correspondencia o no correspondencia con el psicoanálisis con relación al término “fetichismo” (la traducción del post en una de las páginas de Tapera). La apuesta es más que inquietante pero no dejan de sorprender los resultados: Turkel hizo un programita para poder probarlo –link al mismo- y eso fue lo que hice:
suponía que los hispano hablantes iban a correlacionar malamente el término “cuadra” con “panadería”, aunque sabemos que se denomina así al lugar de elaboración del pan. Supuse que tampoco iban a hacerlo muy bien con “hectárea” o “campo”, aunque sabemos que la cuadra es una unidad de medida que en algunos lugares aún se sigue usando. Bien, suponía mal en el primer intento, suponía bien en el segundo: “cuadra” está muy cerca de “manzana” y “esquina” (.40); cerca de “policía” (.46); cerca de “panadero” y “soldado” (.48 en ambos casos); más lejos de “carnicero” (pero no tan lejos, 0.50); distante de “campo”, “plano” y “hectárea” (más de 0.60 en los tres casos).
Hice un intento más con “aborto” y varias palabras para vincular, pero merece otro post.
El problema que preocupa a Piscitelli y a muchos es que si eso es historia o podría llegar a serlo. Reformulemos la pregunta: ¿podría investigarse historia por fuera de las universidades con igual calidad en sus resultados? Ambas condiciones deben cumplirse puesto que ya se investiga históricamente “por fuera” de los ámbitos académicos. Además, no es necesario que los investigadores universitarios acepten la respuesta, pero sí es necesario que las pertinentes objeciones con las que actualmente se ataca a un tipo de producción alternativo, dejen de ser verificables. El H-Bot es un programa logrado justamente por lo que se le achaca: que sea una máquina sólo capaz de hallar datos históricos precisos. Obviando las comparaciones antropomórficas, la máquina está en una versión inicial pero ya se adelanta al trabajo de Google y eso no es poco. Para responder a la pregunta que mencionábamos hay que cruzar esa serie de informaciones (NGD-Cohen-HBOT-Turkell-Piscitelli) con otra que investigó Rosenzweig (co-autor junto a Cohen de un texto que es una referencia importante en este post) sobre Wikipedia. (La línea sería en verdad [Wikipedia-Nature-Rosenzweig-Piscitelli] porque Piscitelli “toca” indicialmente el tema pero lo abandona rápidamente.)
La polémica comparación publicada en la revista Nature entre la Enciclopedia Británica y Wikipedia (una enciclopedia abierta: cualquiera puede escribir un artículo sobre un tema en particular, pero también cualquiera puede corregirlo, aunque hay revisores). El artículo se inclinaba a favor de Wikipedia. Una especie de colectivo gnoseológico capaz de perfeccionarse, no sólo en los artículos sobre procesos históricos, por ejemplo, sino también publicando sobre modos de investigar, sobre retórica, sobre procedimientos analíticos, etc. a partir de los cuales otros integrantes pueden aprender y escribir o corregir artículos sobre procesos históricos o sobre investigación. Ese procedimiento no es nuevo y está muy ligado a la enseñanza académica. Rosenzweig, en el artículo que publica en la académicamente prestigiosa revista The Journal of American History reflexiona sobre este punto, sobre la posibilidad de una enciclopedia (por el momento se trata de un saber enciclopédico también en la distinción que opera sobre su audiencia, es decir, se trata de una producción de conocimiento no profesional, coma la Enciclopedia Británica). Pienso que ese tratamiento colectivo de la información y el perfeccionamiento de máquinas capaces de acelerar la minería de datos contribuyen a la historiografía en general y ciertamente dibujan un escenario posible desligado de la autoritas universitaria. Mi único cuestionamiento es que mientras estas investigaciones y avances estén ligadas a Google, una cada vez más feroz empresa lucrativa, los límites de esa producción de conocimiento son tan computacionables, calculables, como la fecha de nacimiento de Rushdie.