Num cenário em que as nações aumentam suas regulações em relação ao tratamento de dados pessoas, tendência representada pela Lei Geral de Proteção de Dados Pessoais no Brasil, a maior plataforma de publicidade do mundo, unida à companhia que possui e desenvolve o mais utilizado navegador da internet, propõe uma solução para conformar a publicidade direcionada à nova ordem. O acordo entre Google Ads e Google Chrome promete a privacidade dos usuários e decreta o fim dos cookies de terceiros.
Os cookies HTTP são dados no computador dum usuário, guardados pelo navegador ao acessar uma página que os pede. Servem como a memória da página: quando a página é acessada novamente, os cookies podem ser apresentados, contendo informações diversas. Cookies de autenticação, por exemplo, permitem a identificação dum usuário, que pode passar por diferentes partes de um domínio sem ter que se conectar em cada uma delas. Como páginas conseguem carregar recursos de outras, cookies de mais de um domínio podem ser salvos mesmo visitando apenas uma página, sendo os cookies de outros domínios chamados de cookies de terceiros.
Frequentemente, cookies de terceiros tem objetivo de rastreamento, salvando o histórico de visitas ou características de comportamento do visitante, em um registro que se atualiza sempre que é visitado. Novas normas exigem o consenso do usuário para salvar estes cookies e alguns navegadores já não os salvam mais, caminho a ser seguido pelo Google Chrome em breve. Buscando uma saída, uma das soluções mais ambiciosas da indústria é o Aprendizado Federado de Coortes (FLoC — Federated Learning of Cohorts), proposta do Google.
Essa sugestão foi detalhada num whitepaper, que descreve simplificadamente o mecanismo matemático por trás da proposta. Como seu funcionamento envolve álgebra linear, um ramo pelo qual a comunidade politécnica tem grande carinho, vale examinar a proposta. O comportamento dos usuários é analisado localmente, pelo navegador, e transformado em vetor. Em seguida, o algoritmo SimHash cria um novo vetor n-dimensional baseado no vetor original e em n vetores unitários aleatórios ordenados. A primeira coordenada desse novo vetor é zero se o produto escalar entre o primeiro vetor unitário aleatório e o vetor original for menor ou igual a zero e é um no caso complementar, em que o produto escalar entre os vetores é maior que zero. As outras coordenadas são criadas analogamente, gerando o vetor resultado que é chamado de hash. Quando dois usuários possuem o mesmo hash, eles são agrupados num coorte, isto é, num grupo com características semelhantes. SimHash foi escolhido especificamente por isso, sendo da família dos algoritmos de hash localmente sensíveis, nos quais, dadas 2 entradas semelhantes, são criados hashes semelhantes ou iguais. Com SimHash, vetores iniciais semelhantes, ou ainda, vetores iniciais mais alinhados, tem chance exponencialmente maior de compartilhar um mesmo hash do que vetores que formam ângulos maiores.
O objetivo ao final disso tudo é assegurar a privacidade por meio do k-anonimato — quando a informação de um indivíduo qualquer num conjunto de dados é indistinguível da de outros k-1 indivíduos — para todos os usuários. A operação, como descrita anteriormente, ainda não basta: assim como os grupos criados podem ser enormes, eles também podem ser individuais (k=1), permitindo rastreamento pessoal. Para resolver tal problema, é suficiente um reagrupamento, levando em consideração hashes similares (a semelhança pode ser avaliada por ordem lexicográfica ou alfabética) e o tamanho mínimo de grupo, k, num algoritmo simples, o SortingLSH.
Embora esse mecanismo precise de um servidor centralizado, que organize os grupos por SortingLSH e não permita a transmissão caso o usuário faça parte de um grupo de tamanho inferior a k, ele evita a necessidade de um servidor centralizado saber do histórico dos usuários — a informação transmitida é apenas um hash curto, recalculado semanalmente. Através disso, FLoC e outras propostas do Google oferecem às agências reguladoras a privacidade e à indústria de publicidade a continuidade, com perdas de eficácia desprezíveis quando testadas em tanto banco de dados genéricos quanto proprietários.
A parte do aprendizado federado é pouco abordada, mas a intenção é eventualmente substituir SimHash por um algoritmo de inteligência artificial cujo aprendizado é realizado sem que os dados sejam transferidos para um servidor central, com o processamento sendo feito nos computadores de usuários e compartilhado anonimamente.
Em outros textos da proposta, é explicado como uma curta sequência de caracteres, o ID FLoC, será associada a um grupo para realizar a publicidade direcionada. Para atingir esse objetivo, o comportamento de usuários com um mesmo ID deve ser monitorado e catalogado.
Apesar desse grande esforço, várias vulnerabilidades e preocupações foram apresentadas. Frequentemente, há correlação entre grupos demográficos e seus interesses, permitindo a discriminação baseada em FLoC, problema que já existia com cookies de terceiros. Algumas técnicas de rastreamento podem ser aprimoradas, como fingerprinting, a técnica de observar várias informações genéricas (fontes instaladas, línguas disponíveis, resolução etc) para violar o k-anonimato de cada uma delas a partir da combinação: apenas 1 usuário possui esse ID FLoC com esse driver de aúdio nesse fuso horário, por exemplo. Em páginas onde o usuário se identifica, seu ID FLoC pode ser ligado a outras informações pessoais e a evolução de seu comportamento pode ser acompanhada pelo ID.
Além dessas preocupações com privacidade, surgiram algumas alegações de que o FLoC favorece injustamente o Google. Mesmo se não estiverem certas, provavelmente quem mais tirará proveito disso serão os detentores do maior motor de busca, do maior provedor de e-mail, da maior plataforma de vídeos, entre outros, com práticas como emprestar infraestrutura a universidades e forçar adoção de padrões web. No domínio dos dados, não erra quem aposta no Google.
Os cookies de terceiros foram uma das mais importantes ferramentas de rastreamento até agora, mas até se não houver sucessor oficial, técnicas e vulnerabilidades como CNAME Cloaking e abuso do cache de favicons garantem a continuidade da publicidade direcionada até onde se ousa imaginar. Os cookies morreram, mas suas sombras permanecem.
Fabrício Belvel,
Engenharia Mecânica, 3º ano.
Adorei o Texto. Muito bom