villatelab

Por: Angela Cristina Villate

La experiencia me ha enseñado que para lograr un “análisis con valor” es necesario integrar fuentes y métodos de distinta naturaleza y atreverse a generar validaciones externas; es decir, someter la información al escrutinio de disciplinas y herramientas distintas a las de su fuente de origen.

Buena parte de mi trabajo consiste en analizar grandes cantidades de información social, jurídica y lingüística para identificar patrones, tendencias o desviaciones. Los hallazgos se plasman en artículos, informes o visualizaciones que gracias a su contenido y estructura logran diferenciarse lo suficiente de una charla de cafetería.

Debemos admitirlo: todos poseemos la solución a los grandes problemas sociales y existenciales de la humanidad. El taxista comprende muy bien las desigualdades socioeconómicas del país y sabe cómo remediarlas, la tendera interioriza la ley de la oferta y la demanda mejor que cualquier especulador de la bolsa y el vendedor de cebollas discurre en sus horas muertas, con espontaneidad y fluidez, sobre la finitud del ser, lo insoportable de la existencia y la nada que nadea.

Los lugares comunes, siempre a la orden del día, son bienvenidos; debemos celebrarlos y gozar de ellos. Sin embargo, un análisis con valor nunca será el resultado de la suma de lugares comunes. Si acaso, y con suerte, por esta vía se llega al triste destino del paper sin lectores, el estudio insípido y sin impacto, la tesis hecha de frases repetidas y desgastadas.

La experiencia me ha enseñado que para lograr un “análisis con valor” es necesario integrar fuentes y métodos de distinta naturaleza y atreverse a generar validaciones externas; es decir, someter la información al escrutinio de disciplinas y herramientas distintas a las de su fuente de origen. Este ejercicio suele reconfigurar el panorama tradicional en tanto permite advertir formas, relaciones o interacciones que permanecían ocultas y pasaban inadvertidas a los recursos habituales de análisis.

Sin embargo, la posibilidad de integrar métodos de analítica de datos a las ciencias sociales y las humanidades ha generado un temor irracional: el fin del “humanismo”, gritan algunos; el “capitalismo de datos”, aúllan los otros. Esta postura se adscribe a una tendencia apocalíptica que repele al cambio y que viene siendo promovida por quienes nunca han escrito una línea de código en Python, visualizado en Rstudio o modelando en Knime y, por lo tanto, desconocen su utilidad y su potencialidad.

Así como la televisión no acabó con la radio, la analítica de datos no acabará con las ciencias sociales o las humanidades; entre otros motivos, porque no es esa su finalidad.  Bien supo percibir Umberto Eco que aquí no tienen cabida los debates apocalípticos al estilo “esto matara a aquello”, el libro impreso coexiste con el libro digital, la radio convive con la televisión y el internet, ¿por qué no pueden entonces las ciencias sociales y las humanidades convivir con la tecnología?  

Supongamos que mediante el machine learning se obtiene toda la información cuantitativa y cualitativa disponible sobre un fenómeno social determinado y que esa información es puesta a disposición de los investigadores. Este panorama no parece tan malo ni tan peligroso. ¿Entonces a que le temen los que le temen a la analítica de datos?

El temor parece provenir de tres fuentes:

Primera, una vez en posesión de los datos, los investigados deberán hacer uso de su saber, su ingenio y su imaginación para interpretar.  Interpretar es una actividad exclusivamente humana, así como son exclusivamente humanos el saber, el ingenio, la imaginación.

Maticemos esa exclusividad, quizás algunos cánidos, primates, cetáceos, cefalópodos y otros  sean capaces de pensar. Debemos aceptar esta posibilidad como algo plausible.  Lo que no podemos aceptar es la posibilidad de que una máquina piense, por ahora las máquinas son incapaces de pensar o crear. Las máquinas se limitan, por ahora, a imitar el pensamiento y la creación.     

El miedo proviene entonces de que el intérprete se haya convertido en una máquina carente de saber, ingenio e imaginación. Poner miles de datos en manos de investigadores sin imaginación ni criterio es como no tener nada. Piense usted en un violinista torpe y mediocre al que le ha correspondido interpretar una sonata en el mejor de los stradivarius. Al final no tendremos nada o, por lo menos, no demasiado.

Piense usted en el investigador al que se le ha entregado toda la información cuantitativa y cualitativa sobre un determinado fenómeno social, pero que por X o Y motivo carece de saber, ingenio e imaginación. Los datos ponen así en evidencia a esos androides-investigadores incapaces de pensar, ingeniar e imaginar. Así como el buen violín y la inmejorable sonata han dejado en evidencia al interprete mediocre. 

Segunda, las ciencias sociales y las humanidades duermen un largo sueño en el colchón de los lugares comunes, las ideas desgastadas y las frases repetidas. Existe un temor, bastante justificado, a que los datos contradigan esas ideas reiteradas hasta el hartazgo y hoy ya agotadas, sobre las que se asientan y sostienen saberes que han sido incapaces de entender las transformaciones sociales, los cambios vertiginosos y las nuevas realidades.      

Tercera, es innegable que el capitalismo de datos representa un peligro para la libre competencia, las economías locales y la sociedad en general (punto para los apocalípticos). Resulta válido temer al capitalismo de datos. Lo que no resulta válido es renunciar a luchar con las armas del enemigo. Mientras la mayoría de los investigadores sociales, filósofos  y humanistas se dedican a llorar como Hécuba, quienes han entendido el poder de la analítica de datos lo usan justamente para logar un mundo un poco más justo y mejor, bien sea generando o apoyando  proyectos de economía colaborativa y alternativa, proyectos de transparencia y acceso a la información, proyectos educativos accesibles y mediados por las tecnologías de la información y la comunicación, etc. 

Es cierto que el mundo está mal, muy mal, pero también es cierto que no es culpa de la analítica de datos, a pesar de que los autoproclamados humanistas se empeñan en afirmar lo contrario y se embarcan en una caza de brujas donde el miedo y la paranoia los hacen ver culpables  por todos lados;  ese parece ser su gran  superpoder.

Para concluir, indicaré, brevemente,  algunas de las ventajas concretas que he encontrado en esta integración posible entre las ciencias  sociales y la  analítica estratégica de datos:

  1. Facilita el etiquetado de textos: en un tiempo breve se puede realizar la caracterización de miles de documentos extensos. El corpus lingüístico, el conjunto de extensas decisiones judiciales o ese maremágnum de datos sociales cuyo análisis tradicional exigiría años, puede ser realizado en unos cuantos minutos.  
  2. Permite cuantificar y, en consecuencia, parametrizar categorías.
  3. Genera visualizaciones que llevan a comprender conexiones entre textos o información que, de entrada, hubiese sido muy difícil o incluso imposible advertir
  4. Mejora el proceso de diseño de instrumentos (encuestas, entrevistas o formularios). Para esto se han pensado algunos modelos de análisis estadístico y la asignación de valores a las categorías.
  5. Facilita la comunicación, comprensión y transmisión de ideas complejas
  6. Estimula el modelado de sistemas de información.

Esta es una de las visualizaciones resultado del análisis de la encuesta de movilidad de Bogotá (2019), que contiene algo más de diez mil registros. La gráfica muestra la agrupación socioeconómica de los ciudadanos según el origen del desplazamiento en transporte público. EL clúster 3, por ejemplo, identifica que las personas de estrato 6 (la menor cantidad de población) comienzan sus recorridos en las localidades de Chapinero y Usaquén.

Esta imagen muestra la visualización de un LDA (Latent Dirichlet Allocation) tras analizar cientos de miles de registros sobre conflictividad en conciliación en derecho. Esta es una técnica de análisis de procesamiento de lenguaje natural en Python.

Leave a Reply

Your email address will not be published. Required fields are marked *