Quando grandes empresas jogam na web bases de dados gigantes sobre milhões de seus consumidores, ajudam pesquisas de comportamento, geram oportunidades para insights e até para estudos científicos. As empresas dizem que conseguem não expor a privacidade dos clientes, porque usam um processo chamado anonimização dos dados. Esse nome feio significa que são retirados das tabelas nomes, endereços de IP, data de nascimento, e outros dados pessoais que poderiam servir para que se rastreie de quem são essas informações. Acontece que a anonimização não funciona. Ela não consegue garantir a privacidade de todos, principalmente num mundo repleto de informações.
Dois exemplos disso:
- Em 2006, o provedor America Online (AOL) liberou na web uma lista gigantesca que continha, entre outras coisas, três meses de buscas feitas por 678 mil assinantes do serviço nos EUA. Em vez do nome, um número identificava cada indivíduo. A ideia, diz a AOL, era dar subsídios a pesquisadores. Ao analisar os dados do indivíduo número 4417749, numa reportagem excepcional, dois jornalistas do New York Times encontraram buscas que iam de “cachorro que urina em tudo” a “homens solteiros com mais de 60”. Viram, também, que aquele “número” pesquisava “paisagistas em Lilburn” e várias pessoas com o sobrenome Arnold, além de outros detalhes. Não levou muito tempo, escrevem os repórteres, para descobrir que os dados se referiam a Thelma Arnold, uma viúva de 62 anos, vivendo em Liliburn, na Geórgia. Quando bateram à porta da senhora Arnold, ouviram-na, em choque. “Meu deus, é toda a minha vida pessoal que está aí. Não tinha ideia de que alguém me vigiasse assim.” Três funcionários foram demitidos da AOL, que tirou (ou pelo menos tentou tirar) os dados da internet.
- Outro caso de falha clássica remete a quando o Netflix lançou na web 100 milhões de registros de locação de filme de 480 mil de seus usuários. O leitor nem informado sabe que a iniciativa era parte de um concurso em que times de programadores melhoraram o algoritmo que faz o sistema indicar um filme para você. De novo, os dados foram anonimizados; de novo, usuários foram identificados. Um usuário do Netflix, uma mãe lésbica que escondia isso da família, entrou com um processo contra a empresa em 2009 por temer que sua privacidade fosse violada com os dados tornados públicos. Pesquisadores da Universidade do Texas resolveram fazer uma experiência com essa mesma base de dados e disseram ter conseguido identificar muitos deles, fazendo uma comparação das notas “anônimas” dadas pelos usuários a filmes no Netflix com notas dadas aos mesmos títulos no site Internet Movie Database. Na verdade, disseram, comparando as notas de 6 filmes obscuros, poderiam prever com 84% de acerto quem era o usuário dentro do universo de 480 mil registros.
O especialista Paul Ohm, da faculdade de direito do Colorado, nos EUA, estudou detalhadamente a questão, e escreveu em uma das suas pesquisas que é quase impossível garantir a privacidade dos dados por anonimização. A razão é simples: temos tantos dados e os recombinamos tanto, que é relativamente fácil para especialistas recuperar informações pessoais a partir do cruzamento entre bases de dados. “A ciência da reidentificação hoje rompe o horizonte da privacidade, destruindo a fé que nós colocamos na anonimização”, escreve Ohm.
Não é de se estranhar, portanto, o surgimento dos grupos denominados Cypherpunks, que formam uma resistência com a tentativa de criar novas formas de proteger a identidade e os dados das pessoas. O quanto essa contracultura conseguirá triunfar numa sociedade que já não é mais a de controle, como escrevia Foucalt, mas de biopoder, onde tudo se registra o tempo todo, é tema para outra coluna.
Fonte: Revista Galileu