Migalhas de Peso

Quais os limites éticos do web scrapping?

Iniciativas como a da EWDCI são fundamentais para aprofundar as melhores práticas da web scraping e permitir que ela avance como solução própria ou associada à mineração de dados para apoiar empresas

28/4/2023

A Ethical Web Data Collection Initiative (EWDCI), um consórcio internacional liderado pela indústria de coletores de dados da web focados em fortalecer a confiança do público, promover diretrizes éticas e ajudar as empresas a fazerem melhores escolhas, receberá até o dia 28 de abril comentários das partes interessadas sobre o documento Princípios EWDCI 1.0. O material foi elaborado para chegar a um acordo sobre os padrões da indústria coletivamente e, desta forma, construir a confiança do consumidor e a segurança da comunidade relacionados à prática da Web Scrapping, ou raspagem de dados.

A versão 1.0 do documento foi lançada em 28 de fevereiro de 2023, descrevendo os compromissos assumidos pelos fundadores da EWDCI. Com a coleta pública de opiniões o grupo espera gerar interesse ainda mais forte das partes interessadas por um esforço conjunto para cumprir os compromissos públicos prometidos. O documento de princípios se concentra em quatro áreas principais que são a Legalidade, a Ética, a Responsabilidade Social e o Engajamento do Ecossistema. 

O site da entidade afirma que os comentaristas são livres e permitem aos participantes focarem sua atenção em uma ou mais áreas problemáticas em seus comentários. 

Tal movimento se faz necessário uma vez que a web scraping esteve recentemente no centro de algumas polêmicas com marcas globais que acabaram por trazer um certo desconforto sobre aspectos importantes relacionados a esta prática. 

Em janeiro deste ano, por exemplo, a Meta apresentou uma queixa contra uma empresa chamada Voyager Labs. Sua argumentação foi a de que o software da companhia denunciada era alimentado por dados coletados indevidamente do Facebook e Instagram, além de outros sites como Twitter, YouTube e Telegram. 

Antes disso, o caso mais conhecido era o do LinkedIn, que travou uma batalha com a startup hiQ, alegando que a empresa estava coletando dados do usuário de forma ilegal para abastecer seu software de recursos humanos. No final do processo, as partes chegaram a um acordo, em dezembro de 2022, com uma sentença de US$ 500 mil a ser paga pela hiQ.

Raspagem é diferente de Mineração de dados

Apesar de muitas vezes serem consideradas atividades semelhantes, raspagem de dados e mineração de dados não são a mesma coisa, embora possam ser complementares em algumas situações. 

A web scrapping é a prática de extrair informações a partir de websites, geralmente com o objetivo de obter dados específicos de várias fontes na web. Enquanto isso, a mineração de dados é um processo analítico que visa descobrir padrões, tendências ou correlações em grandes conjuntos de dados. No caso da mineração, são envolvidas ferramentas como a aplicação de algoritmos e técnicas estatísticas para extrair informações relevantes e úteis a partir dos dados brutos. 

Já em relação à confiabilidade dos métodos, ambos podem ser considerados confiáveis se executados corretamente e com base em fontes de dados apropriadas. No entanto, é importante destacar que a mineração de dados é focada na análise de grandes conjuntos de dados para extrair informações valiosas, enquanto a raspagem de dados tem como objetivo coletar esses dados brutos de fontes online. 

Seja como for, iniciativas como a da EWDCI são fundamentais para aprofundar as melhores práticas da web scraping e permitir que ela avance como solução própria ou associada à mineração de dados para apoiar empresas dos mais diversos setores em tomadas de decisões estratégicas que tragam inovação e eficiência cada vez maiores ao ambiente corporativo, mas sem abandonar padrões éticos, legais e seguros.

Alexandre Pegoraro
CEO da legaltech Kronoos.

Veja mais no portal
cadastre-se, comente, saiba mais

Artigos Mais Lidos

Doença degenerativa da coluna lombar aposenta? Entenda!

26/12/2024

“Salve o Corinthians”

24/12/2024

Comentários ao acórdão proferido no RE 107.248 sobre terço de férias

26/12/2024

A utilização da inteligência artificial no franchising

24/12/2024

Comentários ao anteprojeto do Código de Processo do Trabalho - Do incidente de declaração de grupo econômico (art. 115)

25/12/2024