A anonimização não significa nada

A anonimização não significa nada. Este é o sentido do texto intitulado “‘Anonymized’ Data Is Meaningless Bullshit”, publicado em fevereiro de 2020 no site Gizmodo. O texto está disponível abaixo, traduzido, e ao final deixo uma pergunta para você.


“Quando a maioria de nós pensa em como o conceito de ‘dados’ tem sido distorcido pela imprensa, provavelmente estamos pensando em um aplicativo de dados de localização de nosso endereço de casa, ou aplicativos como o Grindr que dá dicas aos anunciantes sobre nossa sexualidade. O que é menos escrutinado, tanto pelo público quanto por aqueles em cargos públicos, são dados que são ‘anonimizados’ – ligados a algo como um endereço IP, em vez de um nome – embora esse seja um conceito que vimos ser uma besteira vezes sem conta.

“A última prova vem por cortesia de Dasha Metropolitansky e Kian Attari, dois estudantes de Harvard que recentemente construíram uma ferramenta que pivota por meio de conjuntos de dados de consumidores carregados a partir de violações na web. Como Metropolitansky e Attari disseram à Motherboard, seu programa foi criado para vincular e-mails ou nomes de usuários não tão anônimos a quaisquer dados ‘anônimos’ que foram encontrados em uma década de violações de dados de quase mil domínios diferentes, desde Adobe até YouPorn.

“E – surpresa! – apesar da maior parte desses conjuntos de dados ser ‘anonimizada’, identificar alguém apanhado em um determinado vazamento não foi nada difícil, de acordo com os pesquisadores.

“Primeiro, vamos tirar alguns fatos do caminho. Os grandes corretores obscuros de dados, de modo geral, não vão armazenar nada explicitamente pessoal sobre você – a pessoa que lê esta história – simplificadamente porque não há nenhum valor nela. Mesmo que os anúncios que nos perseguem pela web pareçam sugerir o contrário, os marqueteiros não se importam com suas esperanças, seus sonhos, seus medos, o ginásio onde você vai ou como você se identifica sexualmente – pelo menos não em um nível individual. O que eles se preocupam é com um anúncio específico para uma demografia específica, que é algo que, no final das contas, é obtido de onde você mora, onde você faz compras, e – sim, em alguns casos – se você é identificado como homoafetivo.

“Aqui está um exemplo pessoal: Com base no meu rastro de papel baseado em NYC – que envolve compras na Petco, Goodwill e alguns dos muitos bares gays da minha cidade – os marqueteiros podem me comercializar realisticamente qualquer coisa relacionada a gatos, lojas de parcimônia ou qualquer coisa bissexual com a confiança de que não estão desperdiçando dinheiro quando me procuram com anúncios. Eles não precisam saber quem eu sou, pois eles só precisam de uma maneira de alcançar o alvo demográfico do qual eu faço parte.

“Os principais corretores de dados têm resmas de informações agregadas sobre mim que são incrivelmente valiosas porque podem me colocar em uma dessas demonstrações com um grau surpreendente de precisão. Qualquer um desses pontos de dados não estará necessariamente ligado a mim, Shoshana, porque eles não têm que ser para fazer dinheiro para outras pessoas. O que estes dados estão vinculados pode ser algo como o endereço IP único do meu computador ou o identificador do anúncio do meu celular, que são, por si só, anônimos.

“Mas mesmo esse ponto de dados em particular não vale realmente a pena – os anunciantes, no dia a dia, estão olhando meus dados (e os seus) como agregados com dados de um número incalculável de outras pessoas. Os “dados” individuais de uma pessoa, por si só, são praticamente inúteis; afinal, os marqueteiros não podem garantir que eu clicarei em um determinado anúncio ou comprarei o produto que eles estão vendendo. O que é valioso é quando esses dados são agregados, mesmo que sejam ‘anonimizados’ e não vinculados a nenhum indivíduo. É por isso que o Facebook, por exemplo, pode dizer que está ganhando cerca de 26 dólares por cada usuário conectado a seu sistema – a única razão pela qual pode dizer isso é porque está monitorando o que bilhões de pessoas no total estão fazendo em sua plataforma e fora dela.

“Enquanto um corretor de dados talvez só seja capaz de vincular meu comportamento de compra a algo como meu endereço IP, e outro corretor talvez só seja capaz de vincular isso à minha geolocalização bruta, isso não é, em última análise, um grande problema. O que é um problema é o que acontece quando esses pontos de dados ‘anonimizados’ vazam inevitavelmente para fora do ecossistema de marketing e alguém ainda mais nefasto os usa para, bem, o que quer que seja, usar sua imaginação. Em outras palavras, quando um corretor de dados gera um vazamento, já é ruim o suficiente – mas quando dezenas de fontes vazam com o tempo, alguém pode juntar esses dados de uma maneira que não só é identificável, mas também assustadoramente precisa.

“É por isso que a defesa dos ‘dados anonimizados’ dos comerciantes e corretores de dados é tão fodida. É uma linha que eles podem, tecnicamente, voltar a usar repetidamente com a consciência limpa, sabendo que sua própria coleta de dados é feita de acordo com as regras. Ao mesmo tempo, estas são algumas das mesmas empresas que vazaram quase 8 bilhões de registros ao longo do ano passado, o que acaba por negar essa lógica em primeiro lugar. Basta perguntar onde a lavagem das mãos acaba e onde começa a torção das mãos.”


E você, concorda que a anonimização não significa nada? Acha que tem relação com o leilão de dados pessoais ao qual já me referi aqui no site? Qual sua opinião sobre o tema? Deixe abaixo nos comentários e compartilhe sua experiência!