Primera Entrega

El web scraping es una práctica que por su naturaleza no puede ser juzgada exclusivamente bajo los parámetros de protección de datos, también se deben considerar las técnicas empleadas, su impacto en la economía digital y los estándares de innovación en los negocios.
En marzo del 2022, la Delegatura de datos personales de la Superintendencia de Industria y Comercio (SIC) impuso una sanción a Dataset por realizar web scraping. Esta decisión quedó en firme en septiembre del 2023, tras agotarse los recursos de reposición y apelación. La sanción incluyó dos tipos de medidas: la suspensión de la extracción de datos mediante prácticas automatizadas o uso de software; y la exigencia de implementar una metodología de recolección y tratamiento de datos que cumpliera con la normatividad sobre la materia.
El caso Dataset es relevante porque contiene una de las escasas menciones directas sobre el uso de web scraping en Colombia. En consecuencia, cabría esperar que este tipo de pronunciamientos fueran aprovechados por las autoridades para, más allá de la resolución del caso concreto, establecer pautas y diseñar directrices claras, razonables y coherentes con los procesos de transformación tecnológica que vive el mundo en la actualidad.
Sin embargo, contrario a tales expectativas, las decisiones de la Superintendecia mantienen una tendencia que se limita a la aplicación e interpretación restringida y restrictiva de la Ley 1581 del 2012, que termina por desconocer las necesidades de nuevos sectores que dependen del desarrollo de la economía digital, la innovación y el marketing digital.
El escenario que condujo a la sanción es el siguiente: Dataset, una SAS colombiana, fue contratada por Proxy INC para “el desarrollo de crawlers y el soporte de algunos correos y canales de atención”. Proxy es una empresa panameña, propietaria de datajuridica.com, un sitio web que ofrece servicios de consulta de antecedentes judiciales de personas en varios países, incluidos Colombia, Panamá, Ecuador, Brasil, Venezuela, Estados Unidos y Chile. La obtención de la información se realiza mediante la técnica de web scraping sincrónico, que consiste en la consulta en tiempo real de información en las páginas oficiales de entidades como la Rama Judicial, la Corte Suprema de Justicia, la Policía Nacional, entre otras.
La SIC sancionó a Dataset por no contar con la autorización del propietario del dato para su publicación en el portal web de datajurídica.com, incumplir los términos de uso de la página de la Rama Judicial y divulgar información sensible o desactualizada. La defensa de Dataset, por su parte, argumentó que ellos no eran los responsables del tratamiento de los datos y que, dado que se recopilaba información de forma sincrónica, solo se mostraban aquellos datos que estaban disponibles en los sitios oficiales.
La SIC excluyó de la discusión todo asunto técnico sobre el web scraping mientras se limitó a señalar que: “La regulación sobre Tratamiento de Datos Personales debe aplicarse al margen de los procedimientos, metodologías o tecnologías que se utilicen para recolectar, usar o tratar ese tipo de información. La Ley colombiana permite el uso de tecnologías para tratar datos, pero, al mismo tiempo, exige que se haga de manera respetuosa del ordenamiento jurídico” (Resolución 58834 del 2023 – Superintendente delegado para la protección de datos personales).
Al dejar por fuera la discusión técnica, la SIC no tuvo en cuenta que existen diferentes formas de raspar o rastrillar datos –traducción poco afortunada en español– frente a las cuales se configuran responsabilidades, riesgos y códigos de ética que permiten, gracias al principio de buena fe, catalogar al web scraping como actividad lícita que, por regla general, poco o nada tiene que ver con los usos ilegítimos que puedan eventualmente llegar a presentarse.
El desconocimiento de los aspectos técnicos ha llevado a que en las resoluciones proferidas por la SIC asuman una posición recurrente en la que sobresalen argumentos ligados a la teoría del riesgo y las tesis peligrosistas. En este sentido, la SIC considera, casi siempre, por regla general, que el web scraping es una actividad riesgosa que podría potencialmente facilitar ataques cibernéticos y promover el monitoreo, perfilamiento y vigilancia de los individuos. Las afirmaciones de esta naturaleza parecen dirigidas a generar pánico mientras justifican decisiones desproporcionadas que limitan, de forma arbitraria, la libertad de empresa, el acceso a la información pública, la autonomía de la voluntad en el manejo de los datos y el avance de la transformación digital.
El web scraping es una práctica que por su naturaleza no puede ser juzgada exclusivamente bajo los parámetros de protección de datos, también se deben considerar las técnicas empleadas, su impacto en la economía digital y los estándares de innovación en los negocios. Si bien, es posible que un ejercicio irresponsable del web scraping genere riegos, las autoridades están en la obligación de evaluar las circunstancias particulares de cada caso y evitar el uso de las decisiones –administrativas o judiciales– como panfletos ideológicos que hacen uso del peligrosismo para intentar frenar a toda costa el avance de la tecnología.
Al indagar más sobre DataSet, descubrimos que se trata de una microempresa fundada en 2012 con la finalidad de ofrecer servicios de desarrollo de sistemas informáticos. Dataset hace parte del puñado de microempresas colombianas que trabajan en el sector de tecnología y necesitan acceder a datos públicos para promocionar sus servicios o ampliar su portafolio. En este contexto, resulta evidente que el uso de técnicas de web scraping se vuelve imprescindible para mejorar la innovación, dinamizar los mercados, impulsar el desarrollo tecnológico y garantizar un acceso más eficiente a la información necesaria para el crecimiento empresarial.
Dataset actualmente se encuentra en proceso de liquidación. Este caso resulta relevante porque permite contextualizar el uso del web scraping en diferentes escenarios, que espero abordar en las próximas entregas:
- El anacronismo de la ley de datos personales frente a los cambios tecnológicos, las políticas sobre inteligencia artificial y el progreso económico que se sustenta en la economía digital.
- La idoneidad de las medidas solicitadas por la SIC para la recolección y uso de datos públicos
- El tratamiento asimétrico que las autoridades colombianas ofrecen a los gigantes transnacionales de la tecnología frente a las microempresas colombianas.
- La incompatibilidad de las decisiones de la SIC con el fomento del desarrollo tecnológica, la innovación y la libertad de empresa o, mejor aún, la “libertad de microempresa”.