domingo, 9 de septiembre de 2012

Ngram Viewer, la aplicación estadística de Google Books como herramienta de investigación en cinofilia

Para los que no conozcáis Ngram Viewer os aclaro que es un proyecto de Google que entró en funcionamiento en 2008 y que se centra en la llamada ‘’minería de datos’’.
 
En esencia y de modo resumido podemos decir que es un gigantesco banco de términos resultado del escaneo de unos 5,2 millones de fondos literarios en las siguientes lenguas: francés, español, alemán, chino, ruso y hebreo. Hasta la fecha la base de datos cuenta con más de 5000 millones de vocablos extraídos de libros escritos entre el año 1500 y el 2008, aunque se espera que este número vaya aumentando.
 
El valor de esta herramienta de cara a cualquier tipo de investigación literaria, antropológica, sociológica o de tipo histórico es incalculable y probablemente a día de hoy todavía no somos conscientes de toda su potencialidad. Centrándonos en un tema tan modesto como es la cinofilia las posibilidades son también infinitas, por poner un ejemplo nos permite tener un conocimiento cierto acerca de qué expresiones relacionadas con el mundo canino eran de uso común en la sociedad de determinada época y por tanto saber en qué momento se empezó a emplear determinada denominación y diferenciarla de un término de nuevo cuño.
 
Las variables en la búsqueda son relativamente sencillas de comprender, uno puede poner varios términos, con el rango de años que quiera, la lengua deseada y con el ‘’alisamiento’’ que más le complazca – esto último se refiere a la forma de presentar los datos en la gráfica, va desde el valor 1 al 50. Hay que tener en cuenta que presenta los valores en porcentaje, de modo que si uno busca en inglés los términos ‘’mastiff’’ y ‘’bandogge’’ (escrito con la grafía antigua) en la gráfica sólo le aparecerán representados los valores de ‘’mastiff’’ ya que esa palabra tiene tantas entradas con respecto al otro vocablo que en cierta forma lo ‘’ensombrece’’, el programa no tiene forma de mostrar los datos de un valor tan escaso proporcionalmente. De modo que para ver las entradas de la base de datos relativas a ‘’bandogge’’ uno tendría que buscar ese término solo o junto a otro que también arroje pocos resultados como puede ser ‘’bandog’’ (esta vez escrito con la grafía moderna).
 
También es posible que a más de uno le sorprenda que ciertas denominaciones no aparezcan en la base de datos, así personalmente me ha resultado imposible hallar cualquier referencia al perro villano de las Encartaciones o al término antiguo ‘’bulldogge’’; lo que indica esto es que la labor de escaneo de datos de google es una visión general de toda la tradición literaria de un país, de modo que es totalmente lógico que no toque libros dedicados a la tradición cinófila a lo largo de todos los siglos. Pero precisamente lo positivo de este hecho es que nos permite comprender el uso en el lenguaje cotidiano de ciertas expresiones y denominaciones, y así hacernos una idea de la importancia que tenían ciertas castas caninas en el acerbo cultural en cada momento histórico.

La verdad es que nos podríamos pasar horas y días haciendo búsquedas a través de Ngram Viewer, yo personalmente he llevado a cabo unas pocas de ejemplo de las que cuelgo las capturas en pantalla a continuación. Están realizadas en español, inglés, francés y alemán, en el rango de años 1500-2008 y comparando nombres de razas diferentes.
Related Posts Plugin for WordPress, Blogger...