h-bot, wikipedia, historiadores.

Hace unos meses Alejandro Piscitelli -uno de los iberoamericanos que mejor entienden el modo en que se ligan y deberían ligarse las ciencias sociales y las nuevas tecnologías-, escribió una nota en educ.ar sobre el H-Bot y las consecuencias posibles del desarrollo acelerado de ese tipo de herramientas, en especial para los historiadores (“Robots que «saben» mucha historia"). Intento decir algo al respecto.

h-bot, CHNU

El h-bot es un dispositivo que busca en internet información de interés histórico. Lo diseñó Daniel Cohen, uno de los historiadores más reconocidos en el campo de la Digital History (link a blog). Y su origen está ligado a investigaciones en torno al modo en que Google recupera e indexa información de la web (el artículo de Paul Vitanyi y Rudi Cilibrasi es un clásico). Básicamente (muy básicamente) el procesamiento de dos o más palabras tipeadas en la caja de texto del buscador más importante en la actualidad (por ejemplo, “salmón” y “solari”) trabaja sobre un índice de palabras que Google construye y una serie de ubicaciones asociadas (eso significa indexar: google no revisa en cada búsqueda una y otra vez todas las páginas que previamente detectó): entonces si “salmón” aparece en las páginas 1,6,9,1450, 2560,… y “solari” aparece en las páginas 6,7,25,1451,2560,…; las páginas pertenecientes a ambas series nos dan la serie defintiva: 6,2560,… El problema es ordenar esta última serie: ¿cuál de esas dos páginas del ejemplo irá a la cabeza del resultado de la búsqueda? La que corresponde a la compañía de pesca de W. Solari, digamos, o la que informa sobre la interpretación que el indio solari hizo del tema de Andrés Calamaro? Una de las razones por las que existen opiniones muy adversas sobre los alcances de los recursos online como instrumentos de la producción de conocimiento científico, es precisamente que, aún si logramos visitar todos las páginas que surgen como resultado de la búsqueda (en este caso dos), bien puede ser que la información recolectada sea errónea. La ausencia de un control académico, erudito, sobre la información vertida en las páginas web visitadas aleja las búsquedas online de los procedimientos heurísticos ligados a la investigación formal. La sentencia presupone un dato que los investigadores que la discuten no niegan: un porcentaje mayúsculo en internet es inexacto o impreciso. Lo que este robot logra es establecer una ponderación distinta al pagerank de Google, pensada esta vez para datos históricos. Recuperando infomación, ponderándola y luego consensuando un resultado, H-bot es capaz de responder cuándo nació Salman Rushdie… pero no es capaz de explicar cómo es que sigue vivo. Se puede probar aquí.
William J. Turkel, otro digital historian, indaga sobre el algoritmo que da origen a este tipo de desarrollos computacionales, el NGD (Normalized Google Distance, en el texto de Vitanyi y Clibrasi). En uno de sus últimos post en su blog, Digital History Hacks, Turkel pretende indagar sobre las representaciones populares y su correspondencia o no correspondencia con el psicoanálisis con relación al término “fetichismo” (la traducción del post en una de las páginas de Tapera). La apuesta es más que inquietante pero no dejan de sorprender los resultados: Turkel hizo un programita para poder probarlo –link al mismo- y eso fue lo que hice:

suponía que los hispano hablantes iban a correlacionar malamente el término “cuadra” con “panadería”, aunque sabemos que se denomina así al lugar de elaboración del pan. Supuse que tampoco iban a hacerlo muy bien con “hectárea” o “campo”, aunque sabemos que la cuadra es una unidad de medida que en algunos lugares aún se sigue usando. Bien, suponía mal en el primer intento, suponía bien en el segundo: “cuadra” está muy cerca de “manzana” y “esquina” (.40); cerca de “policía” (.46); cerca de “panadero” y “soldado” (.48 en ambos casos); más lejos de “carnicero” (pero no tan lejos, 0.50); distante de “campo”, “plano” y “hectárea” (más de 0.60 en los tres casos).
Hice un intento más con “aborto” y varias palabras para vincular, pero merece otro post.


El problema que preocupa a Piscitelli y a muchos es que si eso es historia o podría llegar a serlo. Reformulemos la pregunta: ¿podría investigarse historia por fuera de las universidades con igual calidad en sus resultados? Ambas condiciones deben cumplirse puesto que ya se investiga históricamente “por fuera” de los ámbitos académicos. Además, no es necesario que los investigadores universitarios acepten la respuesta, pero sí es necesario que las pertinentes objeciones con las que actualmente se ataca a un tipo de producción alternativo, dejen de ser verificables. El H-Bot es un programa logrado justamente por lo que se le achaca: que sea una máquina sólo capaz de hallar datos históricos precisos. Obviando las comparaciones antropomórficas, la máquina está en una versión inicial pero ya se adelanta al trabajo de Google y eso no es poco. Para responder a la pregunta que mencionábamos hay que cruzar esa serie de informaciones (NGD-Cohen-HBOT-Turkell-Piscitelli) con otra que investigó Rosenzweig (co-autor junto a Cohen de un texto que es una referencia importante en este post) sobre Wikipedia. (La línea sería en verdad [Wikipedia-Nature-Rosenzweig-Piscitelli] porque Piscitelli “toca” indicialmente el tema pero lo abandona rápidamente.)

wikipedia

La polémica comparación publicada en la revista Nature entre la Enciclopedia Británica y Wikipedia (una enciclopedia abierta: cualquiera puede escribir un artículo sobre un tema en particular, pero también cualquiera puede corregirlo, aunque hay revisores). El artículo se inclinaba a favor de Wikipedia. Una especie de colectivo gnoseológico capaz de perfeccionarse, no sólo en los artículos sobre procesos históricos, por ejemplo, sino también publicando sobre modos de investigar, sobre retórica, sobre procedimientos analíticos, etc. a partir de los cuales otros integrantes pueden aprender y escribir o corregir artículos sobre procesos históricos o sobre investigación. Ese procedimiento no es nuevo y está muy ligado a la enseñanza académica. Rosenzweig, en el artículo que publica en la académicamente prestigiosa revista The Journal of American History reflexiona sobre este punto, sobre la posibilidad de una enciclopedia (por el momento se trata de un saber enciclopédico también en la distinción que opera sobre su audiencia, es decir, se trata de una producción de conocimiento no profesional, coma la Enciclopedia Británica). Pienso que ese tratamiento colectivo de la información y el perfeccionamiento de máquinas capaces de acelerar la minería de datos contribuyen a la historiografía en general y ciertamente dibujan un escenario posible desligado de la autoritas universitaria. Mi único cuestionamiento es que mientras estas investigaciones y avances estén ligadas a Google, una cada vez más feroz empresa lucrativa, los límites de esa producción de conocimiento son tan computacionables, calculables, como la fecha de nacimiento de Rushdie.

¿blogs de historia?

Recorro la red que los blogrolls de algunos sitios web de historiadores americanos van armando. Los nodos más intervinculados, en rigor de verdad. Y en tiempo presente porque verdaderamente es fatigante: la gran mayoría no trata sobre sus temas de investigación sino sobre las tecnologías aplicadas a la enseñanza digital o a la creación del propio blog. Dos públicos parecen dibujarse en ese desplazamiento: el lúgubre y escaso consultor de las cada vez más específicas monografías de pobre tirada; y el obsesivo, trepidante, nómada, lector de archivos .css y colector de plugins para wordpress (aunque algunos de esos blogs son increíblemente valiosos, por ejemplo el que en uno de sus post trata el tema de las notas al pie y la factibilidad de hacerlas bajo CSS: HistoryTalk). Hay excepciones claro, de las que más adelante iremos conversando; pero en términos generales, la nueva tecnología seduce al historiador y este procede en consecuencia: se hace un blog y se mira haciéndolo.
Los blogs de historia en idioma español parecen tener otro perfil. Y digo “parecen” porque hasta ahora he visto pocos surgidos desde personas o grupos ligados al ambiente académico. En el blog de Justo Serna: Los archivos de Justo Serna, por ejemplo, las opiniones y escritos punzantes sobre diversos temas ligados a las ciencias sociales, a la literatura, a las noticias de actualidad, y a la historia, circulan con fluidez bajo el kubrick de wordpress, dejando a los archivos .php hacer lo suyo.
¿Se trata de dos apariencias “correlacionables”? pienso mientras miro la interfase del FeedDemon, que me avisa de dos nuevas entradas rescatadas por las arañas del technorati.

una de Cash

Suficientes recursos se pusieron en movimiento para promocionar a Johnny Cash. Aportamos lo nuestro y probamos el plugin para WordPress, Taragana's Del.icio.us mp3 player. Lo escuchamos aquí cantando El matador, en un español descorazonador.

una historia embrollada

Hace un tiempo leí­ el texto de Vernon Takeshita, "Tangled Web: The limits of Historical Analysis on the Internet", en el que se duda y mucho sobre las ventajas -constantemente anunciadas por muchos- de las nuevas tecnologías y la historia. El texto es "viejo" (del 2001) pero aún puede insistirse en ese debate. Dos versiones litigan allí­ (allí­ es en estados Unidos un ejemplo lo pone mejor: el CHNM, uno de los sitios web más sólidos que pueden consultar los historiadores, se trasladó hace un tiempo a un edificio nuevo (pueden verlo aquí­); mientras que la mayorí­a de los investigadores que intentan vincular su profesión con internet deben hacerlo desde su casa o con escasos recursos por lo general diseñados para otras tareas (acá no se puede ver): la voz de Roy Rosenzweig y la de Takeshita. Mientras el primero refuerza su percepción de un escenario alentador, y además, estudia históricamente a la propia herramienta que alienta -la internet; el otro -Takeshita- sostiene que tanto tecnológicamente (i.e. los pocos párrafos que entran en un screen) cuanto cualitativamente (toda la basura que circula, la rusticidad de los búscadores), la internet no está a la altura de la producción del conocimiento histórico, en términos académicos. Takeshita al parecer ha llegado a desaconsejar las referencias a trabajos de este medio. Sigo pensando que las objeciones de Takeshita son actuales pero sospecho que si trocáramos el término "internet" por televisión, cine o libro, tendrí­amos problemas muy parecidos (si para Takeshita el scroll de pantalla es incómodo y dificultoso, hay que recordar aquí­ la larga forja que permitió el imperio de conductas ligadas a la lectura). El problema vuelve sobre "apocalí­pticos e integrados".digiyt

horizonte de expectativas

En 1998, John Berger escribió a propósito de las fotografí­as de Penti Sammallahti, Dog Days. Tanto las fotos de PS como el texto de Berger son breves maravillas, y funcionan como pequeñas máquinas de detención temporal: el gesto de la lectura siempre es acto que implica demora. Miremos sino esta foto de PS, en la que la torsión de la lente recuerda los sí­ntomas de una turbación indeterminada: no sabemos si esos rostros nos cuentan una vida de sacrificios o si nos restregan nuestro desencanto. Leyendo el texto de Berger sucede aproximadamente lo mismo: nos viene a decir que nuestro orden de lo visible no es el único, y que coexiste con el de los perros y el de los niños (en su juego de esconderse tras las cosas -"¿Donde está¡? Acá está!"-). Tanto una forma de demorar la modalidad de lo visible como un modo de atacar una pintura, una poética de la mirada. Luego Berger incluirí­a ese texto en su libro The Shape of a Pocket, bajo el tí­tulo de "Open a Gate" (la versión de Taurus se llama El tamaño de una bolsa, y el texto "Abrir la cancela"); sin embargo, no hay en esos libros ni una sola foto de PS.