O serviço reCAPTCHA é um sistema de caixa de diálogo para usuário originalmente desenvolvido na Universidade Carnegie Mellon, principal campus de Pittsburgh. É baseado na interface do CAPTCHA, que pede para usuários digitarem palavras distorcidas exibidas na tela, para ajudar a digitalizar o texto de livros, enquanto protege sites de robôs tentando acessar áreas restritas.[1] Em 16 de Setembro de 2009, o Google adquiriu o reCAPTCHA.[2] Atualmente o reCAPTCHA está digitalizando os arquivos do New York Times e livros do Google Books. Desde 2009, vinte anos do New York Times já foram digitalizados e o planejamento do projeto seria completar o restante dos anos no final de 2010.[3]
O serviço reCAPTCHA fornece, para os sites inscritos, imagens de palavras que o software de reconhecimento óptico de caractéres (OCR) não foi capaz de identificar. Estes sites inscritos (os quais seus propósitos não são geralmente relacionados à ajuda do projeto de digitalização de livros) apresentam estas imagens para humanos decifrarem como palavras CAPTCHAs, como parte do seu procedimento normal de validação. Depois eles retornam os resultados para o serviço reCAPTCHA, que envia esses resultados para a digitalização de seus projetos.
O sistema divulgou a mostra de mais de 100 milhões de CAPTCHAs todo dia,[4] e tem como alguns de seus sites inscritos sites populares como Facebook, TicketMaster, Twitter, 4chan, CNN.com e StumbleUpon. O Craiglist começou a utilizar o serviço em Junho de 2008.[5] A Administração nacional de telecomunicações e informação dos Estados Unidos também usou o reCAPTCHA para o coupon de conversão de TV digital em seu site, como parte do plano de transição de TV digital dos EUA.[6]
Em 2014, o Google mudou o conceito original do produto, com o objetivo de reduzir a quantidade de interação do usuário necessária para verificar se é um usuário real, apresentando desafios de reconhecimento humano apenas quando a análise comportamental suspeita que o usuário possa ser um robô, como por exemplo identificar imagens em um conjunto que satisfaça um prompt específico.
The New York Times has this huge archive, over 130 years of newspaper archive there. And we've done maybe about 20 years so far of The New York Times in the last few months, and I believe we're going to be done next year by just having people do a word at a time.