Milhares de repositórios GitHub expostos, agora privados, ainda podem ser acessados pelo Copilot

Pesquisadores de segurança alertam que dados expostos à internet, mesmo que por um momento, podem permanecer em chatbots de IA generativa online, como o Microsoft Copilot, muito depois de os dados se tornarem privados.
Milhares de repositórios GitHub antes públicos de algumas das maiores empresas do mundo foram afetados, incluindo a Microsoft, de acordo com novas descobertas da Lasso, uma empresa israelense de segurança cibernética focada em ameaças emergentes de IA generativa.
O cofundador da Lasso, Ophir Dror, disse ao TechCrunch que a empresa encontrou conteúdo de seu próprio repositório GitHub aparecendo no Copilot porque ele havia sido indexado e armazenado em cache pelo mecanismo de busca Bing da Microsoft. Dror disse que o repositório, que havia sido tornado público por engano por um breve período, havia sido definido como privado, e acessá-lo no GitHub retornava um erro de “página não encontrada”.
“No Copilot, surpreendentemente, encontramos um dos nossos próprios repositórios privados”, disse Dror. “Se eu navegasse na web, não veria esses dados. Mas qualquer pessoa no mundo poderia fazer a pergunta certa ao Copilot e obter esses dados.”
Depois de perceber que quaisquer dados no GitHub, mesmo que brevemente, poderiam ser potencialmente expostos por ferramentas como o Copilot, a Lasso investigou mais a fundo.
O Lasso extraiu uma lista de repositórios que eram públicos em algum momento de 2024 e identificou os repositórios que já haviam sido excluídos ou definidos como privados. Usando o mecanismo de cache do Bing, a empresa descobriu que mais de 20.000 repositórios do GitHub que eram privados ainda tinham dados acessíveis por meio do Copilot, afetando mais de 16.000 organizações.
As organizações afetadas incluem Amazon Web Services, Google, IBM, PayPal, Tencent e a própria Microsoft, de acordo com Lasso. Para algumas empresas afetadas, o Copilot pode ser solicitado a devolver arquivos confidenciais do GitHub que contêm propriedade intelectual, dados corporativos sensíveis, chaves de acesso e tokens, disse a empresa.
Lasso observou que usou o Copilot para recuperar o conteúdo de um repositório do GitHub — já excluído pela Microsoft — que hospedava uma ferramenta que permitia a criação de imagens de IA "ofensivas e prejudiciais" usando o serviço de IA em nuvem da Microsoft.
Dror disse que a Lasso entrou em contato com todas as empresas afetadas que foram “severamente afetadas” pela exposição de dados e as aconselhou a rotacionar ou revogar quaisquer chaves comprometidas.
Nenhuma das empresas afetadas nomeadas por Lasso respondeu às perguntas do TechCrunch. A Microsoft também não respondeu à consulta do TechCrunch.
A Lasso informou a Microsoft sobre suas descobertas em novembro de 2024. A Microsoft disse à Lasso que classificou o problema como "baixa gravidade", afirmando que esse comportamento de cache era "aceitável". A Microsoft não incluiu mais links para o cache do Bing em seus resultados de pesquisa a partir de dezembro de 2024.
No entanto, Lasso diz que, embora o recurso de cache tenha sido desabilitado, o Copilot ainda tinha acesso aos dados, mesmo que eles não estivessem visíveis em pesquisas tradicionais na web, indicando uma solução temporária.
techcrunch