Inteligência artificial e proteção de dados

No último dia 5 de abril a CNIL – Autoridade de Proteção de Dados da França – publicou um documento intitulado “IA: como cumprir com o RGPD?” (tradução minha). É um texto longo, como não poderia deixar de ser, e que traz inúmeros apontamentos bastante interessantes a respeito do relacionamento entre inteligência artificial e proteção de dados.

Apesar de ser aplicado no contexto europeu, acredito que as indicações feitas pela CNIL também servem para o caso brasileiro. Por este motivo traduzi o documento original do francês para o português e estou replicando o texto logo abaixo, para que você possa utilizá-lo quando estiver analisando o tema da inteligência artificial e proteção de dados.

As únicas alterações que fiz no texto original referem-se a algumas adaptações para o contexto da LGPD. Mantive os links para os originais em francês, para aqueles que tenham interesse em saber mais. Tirando isso, todo o restante está conforme o original. Vamos lá?

Conteúdo

IA: como cumprir com o RGPD?

A inteligência artificial levanta questões cruciais e novas, especialmente no que diz respeito à proteção de dados. A CNIL lembra os principais princípios da Lei de Proteção de Dados e do RGPD a serem seguidos, bem como suas posições sobre certos aspectos mais específicos.

Defina uma finalidade

O princípio

Para cumprir com a LGPD, um sistema de inteligência artificial (IA) baseado na utilização de dados pessoais deve sempre ser desenvolvido, treinado e implantado com um propósito (finalidade) bem definido.

Este objetivo deve ser determinado, ou seja, estabelecido a montante, a partir da concepção do projeto. Também deve ser legítimo, portanto, compatível com as missões da organização. Finalmente, deve ser explícito, isto é, conhecido e compreensível.

Saiba mais: Defina uma finalidade

Na prática

Como em qualquer tratamento de dados, mas ainda mais aqueles que envolvem grandes quantidades de dados pessoais – como é frequentemente o caso dos sistemas de IA – é necessário garantir que esse princípio seja respeitado.

Em particular, porque é a finalidade que garante que apenas os dados relevantes sejam usados e que o período de retenção escolhido seja adaptado.

Aprendizagem vs. produção: o caso especial dos sistemas de IA

A implementação de um sistema de IA baseado em aprendizado de máquina requer a sucessão de duas fases:

1. A fase de aprendizado

A fase de aprendizado consiste em projetar, desenvolver e treinar um sistema de IA e, em particular, um modelo, ou seja, uma representação do que o sistema de IA terá aprendido com os dados de treinamento.

2. A fase de produção

A fase de produção consiste na implantação operacional do sistema de IA obtido na etapa 1.

Do ponto de vista da proteção de dados, essas duas etapas não cumprem o mesmo objetivo e, portanto, devem ser separadas.

Em ambos os casos, a finalidade do tratamento de dados pessoais realizado durante cada uma dessas fases deve ser determinada, legítima e explícita.

Estabeleça uma base jurídica

O princípio

Como qualquer atividade de tratamento, um sistema de IA que explora dados pessoais só pode ser implementado se corresponder a uma justificativa prevista por lei. Existem 10 bases legais na LGPD, sendo as principais o consentimento, o cumprimento de uma obrigação legal, a execução de um contrato, a busca de um interesse legítimo e a proteção ao crédito. Em termos concretos, a base legal é o que dá a uma organização o direito de tratar dados pessoais. A escolha dessa base jurídica é, portanto, um primeiro passo essencial para garantir a adesão ao tratamento. Dependendo da base escolhida, as obrigações da organização e os direitos dos indivíduos podem variar.

Essa escolha de base jurídica deve ocorrer antes da implementação do tratamento de dados.

Saiba mais: Bases legais

Embora a implementação de um sistema de IA não difira fundamentalmente de outro tratamento de dados pessoais, certas especificidades, no entanto, exigem vigilância. Assim, os sistemas de IA – e em particular aqueles baseados em aprendizado de máquina – exigem a exploração de dados durante a fase de aprendizado antes de serem aplicados a outras pessoas na fase operacional.

Em qualquer caso, um sistema de IA não pode ser implementado em dados pessoais coletados ilegalmente, tanto na fase de aprendizado quanto na fase operacional. A seção a seguir, “Construindo um banco de dados”, fornece mais detalhes.

Além disso, quando os dados foram coletados sob outro regime (como dados criminais), e exceto em casos especiais, o tratamento de dados pessoais para fins de aprendizado está submetido à LGPD desde que:

Esta fase de aprendizado seja muito distinta da implementação operacional do sistema de IA (veja o bloco “Aprendizagem vs. produção: o caso especial dos sistemas de IA” na seção anterior);
Seu objetivo exclusivo é desenvolver ou melhorar o desempenho de um sistema de IA.

Atenção: o objetivo da “pesquisa científica” não pode, por si só, constituir uma base legal para o tratamento. Somente as bases legais listadas na LGPD podem possibilitar a implementação do tratamento de dados pessoais.

Criação de um banco de dados

Os sistemas de IA, e em particular aqueles baseados em aprendizado de máquina, exigem o uso de grandes volumes de dados. Estes são essenciais tanto para fins de treinamento do sistema quanto para avaliação, benchmarking ou validação dos resultados. A criação de bancos de dados sempre foi um problema para a pesquisa computacional e representa um esforço importante, uma vez que se trata de combiná-los com anotações que descrevem os dados e realizam categorização, limpeza, padronização, etc. Como resultado, esta é uma questão essencial para o tratamento de dados por inteligência artificial.

Na prática

Existem duas possibilidades principais para a criação de bancos de dados: a coleta específica de dados pessoais para esse fim e a reutilização de dados já coletados para outra finalidade. Neste último caso, há a questão da compatibilidade dos propósitos para os quais os dados foram inicialmente coletados e das condições sob as quais a base de dados inicial foi estabelecida.

De qualquer forma, o estabelecimento de bancos de dados pessoais, que muitas vezes são baseados em longos períodos de retenção de dados, não pode ser feito à custa dos direitos dos titulares dos dados. Em particular, deve ser acompanhado por medidas de transparência e informação antes da coleta dos dados.

Essas informações são essenciais para permitir o exercício de outros direitos (acesso, retificação, exclusão, oposição).

Exemplos

No campo da saúde, a CNIL teve a oportunidade de decidir sobre a criação de armazéns de dados de saúde. Em um repositório publicado recentemente, a CNIL especifica o contexto de coleta e retenção de dados em um único banco de dados por um longo período de tempo, no contexto de missões de interesse público e para pesquisas subsequentes.
Como parte de um pedido de aconselhamento, os serviços da CNIL puderam admitir a reutilização de imagens de proteção por vídeo em um contexto particular para a realização de pesquisas científicas sobre a compreensão dos movimentos de multidões, uma tarefa no campo da visão computacional. No entanto, foi especificado que, para fazer isso, a coleta de dados tinha que:
- Ocorrer dentro do período legal de retenção para imagens de proteção de vídeo (1 mês); e
- Ser acompanhada de informações claras e acessíveis para as pessoas envolvidas.

Minimize os dados

O princípio

Os dados pessoais coletados e usados devem ser adequados, relevantes e limitados ao que é necessário para a finalidade definida: este é o princípio da minimização de dados. Atenção especial deve ser dada à natureza dos dados e esse princípio deve ser aplicado de forma particularmente rigorosa quando os dados tratados são sensíveis.

Os sistemas de IA atualmente mais proeminentes e discutidos são baseados em métodos de aprendizado de máquina particularmente poderosos. A melhoria desses métodos foi possível graças aos efeitos combinados de:

Pesquisa e desenvolvimento de novas abordagens;
Aumento do poder de computação disponível para realizar operações mais complexas; e
Aumento nos volumes de dados disponíveis.

Embora o uso de grandes quantidades de dados esteja no centro do desenvolvimento e uso de sistemas de IA, o princípio da minimização não é, por si só, um obstáculo para a realização de tal tratamento.

Na prática

É necessário determinar os tipos de dados necessários para o treinamento e operação de um sistema de IA, por exemplo, por meio de experimentos e testes realizados em dados fictícios, ou seja, ter a mesma estrutura que os dados reais sem estar vinculado a uma pessoa. Esses dados não são dados pessoais.

A quantidade de dados necessários para treinar o sistema também deve ser estimada com precisão e comparada com a finalidade do tratamento, em conexão com o princípio da proporcionalidade.

De fato, a fase de aprendizado (ou treinamento) visa desenvolver um sistema de IA e, portanto, explorar as possibilidades oferecidas pelo aprendizado de máquina e pode exigir uma grande quantidade de dados, alguns dos quais acabarão sendo inúteis durante a fase de implantação.

Portanto, deve ser feito um uso fundamentado dos dados. Na prática, é assim defendido, e isso de uma maneira não exaustiva:

Avaliar criticamente a natureza e a quantidade de dados a serem usados;
Verificar o desempenho do sistema quando ele é alimentado por novos dados;
Distinguir claramente os dados usados durante as fases de aprendizado e produção;
Usar mecanismos de pseudonimização ou filtragem/ofuscação de dados;
Estabelecer e manter documentação sobre as modalidades de constituição do conjunto de dados usado e suas propriedades (fonte de dados, amostragem de dados, verificação de sua integridade, operações de limpeza realizadas, etc.);
Reavaliar regularmente os riscos para as pessoas envolvidas (privacidade, risco de discriminação/viés, etc.);
Garantir a segurança dos dados e, em particular, regular com precisão as autorizações de acesso para limitar os riscos.

Exemplo

Como parte da pesquisa clínica para identificar as variáveis explicativas do câncer de próstata, a CNIL recusou que um laboratório farmacêutico tratasse dados de toda a linha ativa de registros médicos dos vários centros participantes do estudo.

De fato, essa fila ativa continha várias centenas de milhões de arquivos de pessoas que não sofrem com a condição estudada (e até mesmo arquivos de mulheres!). O desejo de tratar esses dados, que é cientificamente explicado pela necessidade de ter “negativos reais” para treinar efetivamente um classificador, de fato pareceu desproporcional ao propósito do tratamento e não necessário para o desenvolvimento de um sistema de IA com bom desempenho.

Aprendizagem vs. produção – o caso especial dos sistemas de IA

Durante a fase de aprendizado, é possível uma orientação relativamente flexível em relação ao acesso a dados suficientes de volume e diversidade, sujeitas a contrapartes proporcionais aos riscos levantados pelo tratamento (em particular, leve em conta a natureza dos dados, seu volume e a finalidade do sistema de IA). As medidas podem consistir em:

Acesso limitado a um número limitado de pessoas autorizadas;
Tratamento por tempo limitado;
Pseudonimização de dados;
Implementação de medidas técnicas e organizacionais adequadas; etc.

Somente no final da fase de aprendizado a implantação na fase de produção do sistema de IA pode ser considerada. Para esta segunda fase, ao sair do ambiente “laboratorial”, restrições mais fortes terão que ser implementadas para regular o tratamento.

Por exemplo, será necessário limitar a tipologia de dados pessoais apenas para aqueles que se mostraram essenciais ao final da fase de aprendizado e alterar as medidas consideradas como apropriadas, restrições de produção diferentes das restrições de design e desenvolvimento, desde que esta primeira fase não apresente riscos específicos para as pessoas.

Exemplos

Como parte de um projeto apresentado por uma administração, a CNIL teve a oportunidade de comentar sobre a diferença entre a fase de aprendizado (ou desenvolvimento) e a fase operacional (ou produção) de um sistema de IA. Como parte deste projeto, foi planejado que a primeira fase (aprendizagem) fosse autorizada por decreto. Se essa fase tivesse se mostrado satisfatória, um segundo decreto teria sido destinado a regular a implementação prática desse quadro de referência para profissionais e o público em geral.
No campo da saúde, é feita uma distinção clara entre as fases de pesquisa que exigem formalidade com a CNIL (autorização, cumprimento de uma metodologia de referência, etc.) e as fases de operação em um caminho de cuidado que não exigem formalidade com a CNIL.

Defina um prazo de retenção dos dados

O princípio

Os dados pessoais não podem ser mantidos indefinidamente. A LGPD requer a definição de um período após o qual os dados devem ser excluídos ou, em alguns casos, arquivados. Esse período de retenção deve ser determinado pelo controlador de acordo com a finalidade que levou à coleta desses dados.

Saiba mais: Períodos de retenção de dados

A implementação de um sistema de IA pode, em muitos casos, exigir a retenção de dados pessoais por um período mais longo do que para outros tratamentos. Este pode ser o caso da criação de conjuntos de dados para o treinamento e desenvolvimento de novos sistemas, mas também para atender aos requisitos de rastreabilidade e medição de desempenho ao longo do tempo quando o sistema é colocado em produção.

A necessidade de definir um período de retenção para os dados usados por um tratamento não impede a implementação do tratamento de IA. Essa duração deve ser sempre proporcional ao objetivo perseguido: por exemplo, o objetivo da medição de desempenho deve ser explicitamente destinado a ser usado e os dados mantidos por mais tempo para esse fim devem ser adequadamente selecionados. O simples propósito de medir o desempenho ao longo do tempo não é suficiente, a priori, para justificar uma longa retenção de todos os dados.

Além disso, para tratamentos de IA usados para fins de pesquisa científica é possível manter os dados por períodos mais longos.

Melhoria contínua

A distinção entre as fases de aprendizado e produção nem sempre aparece claramente para todos os sistemas de IA. Este é particularmente o caso dos chamados sistemas de aprendizado “contínuos”, para os quais os dados usados durante a fase de produção também são usados para melhorar o sistema, procedendo assim a um ciclo de feedback completo. O processo de reaprendizagem pode ser considerado em diferentes frequências, após algumas horas, dias ou meses, por exemplo, dependendo do objetivo perseguido.

Perguntas para fazer a si mesmo

Além dos riscos de deriva inerentes ao aprendizado contínuo (introdução de vieses discriminatórios, degradação do desempenho, etc.), esse uso de dados para dois propósitos distintos (aquele para o qual o sistema de IA é colocado em produção e a melhoria intrínseca do sistema) levanta questões do ponto de vista da proteção de dados:

Até que ponto esses dois propósitos são inseparáveis?
É possível fazer uma separação entre as fases de aprendizagem e produção?
Se o algoritmo for fornecido por um editor e usado por um controlador terceirizado, como dividir as responsabilidades relacionadas às duas fases do tratamento?

Exemplos

Nos casos em que foi levada a decidir, a CNIL sempre considerou que era possível separar as fases de aprendizado e produção, mesmo que estivessem enredadas umas nas outras. Por exemplo, em seu white paper sobre assistentes de voz, a CNIL analisa o caso de uso da reutilização de dados coletados por um assistente de voz para melhoria do serviço. O exemplo de anotar novos exemplos de aprendizagem para melhorar o desempenho dos sistemas de inteligência artificial é especificamente mencionado e é feita uma distinção clara entre este tratamento e aquele implementado para a execução do desempenho esperado pelo usuário do assistente de voz.
No que diz respeito à divisão de responsabilidades entre os atores, a CNIL decidiu recentemente sobre a questão da reutilização por um operador de dados confiada por um controlador. Aplicado a sistemas de IA, a reutilização por um provedor de sistemas é legalmente possível se várias condições forem atendidas: autorização do controlador, teste de compatibilidade, informações e respeito aos direitos dos titulares e conformidade com o novo tratamento implementado.

Proteja-se contra os riscos dos modelos de IA

Os principais riscos

O aprendizado de máquina é baseado na criação de modelos. Estas são representações do que os sistemas de IA aprenderam com os dados de treinamento. Desde cerca de 2010, surgiu um campo de pesquisa em ciência da computação sobre o tema da garantia de modelos de IA e, em particular, as possibilidades de extração de informações, o que pode ter implicações importantes para a confidencialidade dos dados pessoais.

Isso é muitas vezes referido como ataques por inferência de associação, ataque de exfiltração de modelo ou ataque de reversão de modelo (veja o artigo do LINC “Pequena taxonomia de ataques do sistema de IA”).

Por exemplo, muitos estudos mostraram que modelos de linguagem de grande porte (GPT-3, BERT, XLM-R, etc.) tendem a “memorizar” certos elementos textuais sobre os quais foram treinados (sobrenome, nome, endereço, número de telefone, número de cartão de crédito, etc.). A possibilidade de realizar tais ataques e extrair informações deles questiona a própria natureza desses novos objetos introduzidos pela inteligência artificial. Portanto, é necessário implementar medidas técnicas e organizacionais para minimizar os riscos (veja as publicações do LINC sobre a segurança dos sistemas de IA).

Além disso, um modelo de IA orientado a partir de dados pessoais não pode, por padrão, ser considerado como dados pessoais (ou, mais precisamente, um conjunto de dados pessoais). No entanto, sua constituição deve ser baseada na exploração legal de dados na acepção da LGPD. Algumas autoridades reguladoras conseguiram exigir a remoção de modelos de IA construídos com base em dados coletados ilegalmente (por exemplo, a Comissão Federal de Comércio dos Estados Unidos).

Finalmente, se um modelo de IA estiver sujeito a um ataque de confidencialidade bem-sucedido (por inferência, exfiltração ou inversão de membros, por exemplo), ele pode constituir uma violação de dados. Em seguida, é necessário retirar o modelo em questão o mais rápido possível e fazer uma notificação de uma violação de dados à autoridade competente de proteção de dados se a violação for susceptível de levar a um risco para os direitos e liberdades dos titulares dos dados.

Exemplos

A CNIL teve a oportunidade de discutir com diferentes organizações o status dos modelos de IA sob o RGPD. Até o momento, a CNIL não considera que um modelo de IA treinado em dados pessoais contenha necessariamente dados pessoais.

No entanto, como existem riscos reais de invasão de privacidade, a CNIL recomenda que sejam implementadas medidas apropriadas para minimizá-los. Assim, no contexto do apoio de um dos projetos vencedores da “sandbox” de dados pessoais, foi levantada a questão da natureza dos modelos de IA aprendidos localmente e enviados de volta para um centro de orquestração ao implementar métodos de aprendizagem federados.

Garanta informações e explicabilidade

O princípio

O princípio da transparência da LGPD exige que qualquer informação ou comunicação relacionada ao tratamento de dados pessoais seja concisa, transparente, compreensível e facilmente acessível, em termos simples e claros.

Saiba mais: Como informar as pessoas e garantir a transparência?

Na prática

Se os principais princípios da Lei Geral de Proteção de Dados se aplicarem no caso de sistemas de IA, as informações a serem fornecidas às pessoas podem variar:

Quando os dados não tiverem sido coletados diretamente pela pessoa responsável pela implementação do sistema de IA e for difícil voltar para as pessoas em questão. Este problema não é específico do tratamento da IA, mas é frequentemente encontrado neste último, particularmente no uso de bancos de dados de aprendizagem;
Para o exercício de certos direitos (em particular o artigo 20 da LGPD), é essencial fornecer explicações precisas à pessoa interessada sobre as razões que levaram à decisão em questão. A complexidade e opacidade de alguns sistemas de IA podem dificultar o fornecimento disto.

Para o exercício de certos direitos (em particular o artigo 22 do GDPR), é essencial fornecer explicações precisas ao titular dos dados sobre os motivos que levaram à tomada de decisão em questão. A complexidade e a opacidade de alguns sistemas de IA podem complicar o fornecimento desses elementos.

Em alguns casos, é possível derrogar o direito à informação quando os dados não foram coletados diretamente dos titulares dos dados, em particular se for demonstrado que as informações dessas pessoas são impossíveis ou exigem esforços desproporcionais, por exemplo, para o tratamento de IA realizado para fins de pesquisa científica. Em publicações recentes da CNIL sobre pesquisa científica (excluindo saúde), uma das folhas práticas especifica especialmente as modalidades de derrogação ao direito das pessoas à informação.

Exemplo

Após uma inspeção de uma plataforma utilizada para pré-inscrição no primeiro ano de um curso pós-bacharelado, a CNIL notou uma falta de informação sobre o uso de um algoritmo e sua operação para classificar e designar estudantes para estabelecimentos de ensino superior, o que levou a uma notificação formal na administração que implementou a plataforma.

A CNIL pediu, portanto, que fosse interrompida a tomada de decisões que tenham efeitos legais sobre os indivíduos apenas com base no tratamento automatizado de dados. Em particular, foi solicitada a implementação da intervenção humana para levar em conta as observações dos indivíduos.

Implementar o exercício de direitos

O princípio

Os titulares dos dados têm o direito de manter o controle de seus dados. O controlador deve explicar como exercê-los (para quem? de que forma?, etc.). Ao exercer seus direitos, as pessoas devem, em princípio, obter uma resposta dentro de quinze dias.

Saiba mais: Respeitando os direitos das pessoas

Quando o sistema de IA envolve o tratamento de dados pessoais, é necessário garantir que os princípios de exercício de direitos previstos na LGPD pelos titulares sejam respeitados: acesso, retificação, apagamento, limitação, portabilidade e oposição, dentre outros. Esses direitos constituem uma proteção essencial para os indivíduos, permitindo que eles não sofram as consequências de um sistema automatizado sem ter a oportunidade de entender e, se necessário, se opor ao tratamento de dados que lhes dizem respeito. Na prática, esses direitos se aplicam durante todo o ciclo de vida do sistema de IA e, portanto, cobrem dados pessoais:

Contidos nas bases de dados usadas para a aprendizagem;
Tratados na fase de produção (que pode incluir saídas produzidas pelo sistema).

Os controladores devem, portanto, estar cientes, desde a fase de projeto do sistema, de que devem incluir mecanismos e procedimentos apropriados para responder aos pedidos que possam ser recebidos. Exceções ao exercício de certos direitos podem ser utilizadas no caso de tratamentos de IA implementados para fins de pesquisa científica.

Além disso, os modelos de IA aprendidos também podem conter dados pessoais:

Por construção, como é o caso de certos algoritmos específicos que podem conter frações de dados de aprendizagem (por exemplo, SVM ou certos algoritmos de agrupamento);
Por acidente, conforme indicado na seção “Proteja-se contra os riscos dos modelos de IA”.

No primeiro caso, dependendo das possibilidades técnicas oferecidas e da capacidade do controlador de (re)identificar o titular dos dados, o exercício dos direitos dos indivíduos pode, portanto, ser alcançado.

No segundo caso, os direitos das pessoas em questão podem ser difíceis ou impossíveis de exercer e satisfazer.

O controlador não deve coletar ou reter informações adicionais para identificar o titular dos dados com o único propósito de cumprir a LGPD. Portanto, em alguns casos, identificar pessoas pode ser complexo. Se o controlador demonstrar que não pode fazê-lo, ele poderá excluir os direitos, sem prejuízo dos indivíduos de fornecerem informações adicionais, o que poderia permitir que eles sejam reidentificados no tratamento. Este será particularmente o caso quando uma pessoa acredita que um sistema de IA a trata de uma maneira particular.

O cumprimento de uma solicitação de retificação ou apagamento de dados de aprendizagem não implica necessariamente a retificação ou apagamento do(s) modelo(s) de IA que foram produzidos a partir desses dados.

Tomada de decisão automatizada

O princípio

Os indivíduos têm o direito a solicitar a revisão de decisões tomadas unicamente com base em tratamento automatizado de dados pessoais que afetem seus interesses, incluídas as decisões destinadas a definir o seu perfil pessoal, profissional, de consumo e de crédito ou os aspectos de sua personalidade. Uma organização pode, no entanto, automatizar esse tipo de decisão se:

A pessoa deu seu consentimento explícito;
A decisão é necessária para um contrato celebrado com a organização; ou
A decisão automatizada é autorizada por disposições legais específicas.

Nesses casos, deve ser possível para a pessoa:

Ser informada de que uma decisão totalmente automatizada foi tomada contra ele;
Pedir para conhecer a lógica e os critérios usados para tomar a decisão;
Contestar a decisão e expressar seu ponto de vista;
Solicitar a intervenção de um ser humano que possa reconsiderar a decisão.

Saiba mais: Criação de perfil e tomada de decisão totalmente automatizados

Na prática

Os sistemas de IA são muitas vezes um tratamento que pode implementar mecanismos automatizados de tomada de decisão.

O controlador deve, portanto, prever a possibilidade, no seu caso, de intervenção humana de sua parte para permitir que o titular dos dados obtenha uma revisão de sua situação, expresse seu ponto de vista, obtenha uma explicação da decisão tomada e conteste a decisão. Em caso de apoio à decisão, também são necessárias garantias, especialmente em termos de informação.

Exemplos

Surge a questão do esboço da definição do que é uma decisão individual automatizada e do grau de intervenção humana desejável no caso de sistemas de IA.

Em seu projeto de guia sobre recrutamento, a CNIL analisa o uso de certas ferramentas para classificação automática ou até mesmo avaliação de candidaturas. Tais soluções podem levar a uma “decisão baseada exclusivamente no tratamento automatizado” por design quando os aplicativos são rejeitados ou quando os aplicativos são relegados a um plano secundário não controlado por humanos por falta de tempo, por exemplo. Devido aos riscos associados a esse método de tomada de decisão, que muitas vezes é opaco para os candidatos, tais processos são, em princípio, proibidos pelo RGPD. Seu uso só é permitido em condições excepcionais e está sujeito à implementação de garantias específicas, destinadas a garantir os direitos e interesses dos candidatos.

A CNIL teve a oportunidade de emitir um parecer sobre o tratamento de dados implementado por uma administração e com o objetivo de usar, em uma base experimental, a exploração de conteúdo livremente acessível online em plataformas para conectar várias partes para a venda de um bem, a prestação de um serviço ou a troca ou compartilhamento de conteúdo, bem ou serviço. Neste parecer, a CNIL especificou que os dados modelados pelo tratamento não devem, em circunstância alguma, levar à programação automática de controles fiscais, nem, mais ainda, a decisões diretamente executórias contra os contribuintes.

Avalie o sistema

Ângulos de avaliação

A avaliação dos sistemas de IA é uma questão fundamental e está no centro do projeto de regulamento da Comissão Europeia. Do ponto de vista da proteção de dados, é essencial para:

Validar a abordagem testada durante a fase de projeto e desenvolvimento do sistema (a chamada “fase de aprendizado”). O objetivo é verificar da maneira mais científica e honesta possível se funciona de acordo com as expectativas dos designers e, se necessário, é bem capaz de ser implantado na fase de produção.
Minimizar os riscos de desvio do sistema que podem ser observados ao longo do tempo. Por exemplo, porque é destinado a pessoas com perfis diferentes daquelas cujos dados formam a base de aprendizado ou porque uma reciclagem do sistema é realizada regularmente, o que pode levar a uma deterioração no desempenho, potencialmente prejudicial para as pessoas envolvidas.
Certificar-se de que o sistema, uma vez implantado em produção, atenda às necessidades operacionais para as quais foi projetado. De fato, o desempenho obtido durante a fase de aprendizado deve ser separado do do sistema, uma vez colocado na fase de produção, a qualidade do primeiro não prejudica a do segundo.

Exemplo

Como parte da experimentação com a tecnologia de reconhecimento facial, a CNIL exigiu que a avaliação enviada a ela também fosse acompanhada por um rigoroso protocolo de avaliação para medir com precisão a contribuição dessa tecnologia. Na prática, a CNIL solicitou que lhe fossem fornecidas:

Métricas objetivas de desempenho comumente usadas pela comunidade científica;
Uma análise sistemática dos erros do sistema e suas implicações operacionais;
Elementos relacionados a condições experimentais (por exemplo, para um sistema de visão computacional: dia/noite, condições climáticas, qualidade das imagens usadas, resistência a possíveis elementos ofensivos, etc.);
Elementos de reflexão sobre os riscos potenciais de discriminação envolvidos na implantação deste sistema de IA especificamente;
Elementos relacionados às implicações deste sistema se implantados em um quadro operacional levando em conta as realidades do campo (por exemplo, uma taxa de falso positivo de 10% em 10 alertas não tem o mesmo envolvimento operacional que 10% por 1.000 alertas).

Evite discriminação algorítmica

As questões

O uso de sistemas de IA também pode levar a riscos de discriminação. As razões são múltiplas e podem vir de:

Dados usados para a aprendizagem, por exemplo, porque não são representativos ou porque, embora sejam bem representativos do “mundo real”, refletem, no entanto, uma natureza discriminatória (por exemplo, a reprodução de diferenças salariais entre mulheres e homens); ou
Do próprio algoritmo que teria falhas de design. Esta dimensão, também muito presente no projeto de regulamento da Comissão Europeia, requer consideração específica por parte dos controladores.

Exemplos

Durante o controle de uma organização que implementa um sistema de avaliação automática de currículos em vídeo gravados por candidatos durante uma campanha de recrutamento, a CNIL pôde notar a existência de vieses discriminatórios. Neste caso, o sistema que visava qualificar as habilidades sociais das pessoas não foi capaz de levar em conta a diversidade de seus sotaques.

A CNIL teve a oportunidade de auxiliar o Defensor de Direitos (DDD) na publicação do relatório Algoritmos: Prevenção da Automação da Discriminação. Em particular, exige conscientização coletiva e compromete as autoridades públicas e as partes interessadas a tomar medidas tangíveis e práticas para evitar que a discriminação seja reproduzida e ampliada por essas tecnologias.