Cotidiano

Dados do Wikipédia são adaptados para fazer computadores interagirem de forma ?mais humana?

wikipedia.jpg RIO- Nos seus 15 anos de existência, a Wikipédia se transformou em referência para consultas on-line sobre os mais diversos assuntos. Ao longo do tempo, a ?enciclopédia livre? acumulou mais de 40 milhões de verbetes em 295 línguas. E parte deste conhecimento, construído por uma comunidade de milhares de editores em todo o mundo, está sendo adaptado para alimentar máquinas inteligentes, capazes de interagir com seres humanos de forma mais natural. Este é um dos possíveis usos do projeto Wikidata, criado há apenas três anos, mas que já possui mais de 24 milhões de dados catalogados de forma estruturada. wikipedia

? A informação que coletamos no Wikidata é um dos componentes necessários para fazer os computadores mais humanos na forma como eles interagem com a gente ? explica Daniel Kinzler, desenvolvedor da Wikipédia alemã e participante do 1º Congresso Científico Brasileiro da Wikipédia, que aconteceu mês passado na Unirio. ? O Wikidata pode fornecer ?senso comum? para ferramentas relativamente simples, como o Siri, da Apple, e a busca do Google, ou máquinas mais complexas, como o Watson, da IBM.

Diferente da Wikipédia, onde as informações são inseridas em forma de texto corrido, no Wikidata elas se relacionam com objetos. O verbete ?Rio de Janeiro?, por exemplo, possui uma série de dados conectados, como data de fundação, população e localização geográfica. E o próprio verbete está relacionado a outros, como sendo uma cidade do Brasil, da Região Sudeste. Dessa forma, algoritmos podem consultar essa base e capturar não apenas palavras, mas informações contextualizadas.

? O Wikidata pode fornecer esse tipo de informação contextual: a temperatura média de uma cidade, quando um terremoto aconteceu, que Michael Jackson não está mais vivo ou que Antártica não é apenas um continente, mas também uma marca de cerveja ? diz Kinzler. ? Esse tipo de informação pode ajudar o Google ou o Siri a compreender suas perguntas e fornecer resultados melhores, ou até mesmo nos questionar: você quis dizer cerveja Antártica? O sistema de navegação do carro pode fornecer informações sobre a cidade que você está prestes a visitar. Contexto é tudo. É dessa forma que o Wikidata contribui para computadores inteligentes.

E essa tecnologia já está em uso. O Google se alimenta desse banco de dados no projeto Knowledge Graph, que, por sua vez, alimenta o assistente pessoal Google Now, presente nos smartphones Android. A Wikipédia, claro, também usa essas informações para atualizar de forma automática verbetes em línguas diferentes. O site Histropédia constrói de forma automática linhas do tempo sobre diversos assuntos.

Mas da mesma forma que a Wikipédia, o Wikidata também sofre com a possibilidade de vandalismo e inserção de dados errados ou fictícios, já que qualquer pessoa pode fazer a edição. Kinzler reconhece o problema, mas o minimiza. Segundo ele, é realmente fácil que alguém mal intencionado coloque dados falsos, mas a correção é ainda mais fácil.

Entretanto, mesmo após 15 anos as edições falsas, seja por brincadeira ou com finalidades obscuras, ainda afetam a Wikipédia. Um caso recente chamou a atenção da mídia internacional. Em abril, um adolescente de 12 anos se tornou primeiro-ministro da Austrália por um dia, pelo menos na enciclopédia on-line. Para isso, ele criou um perfil de editor e simplesmente se nomeou ao cargo.

COMUNIDADE DE PESSOAS E ROBÔS

Dario Taraborelli, diretor de pesquisas da Wikimedia Foundation, explica que, em parte a Wikipédia pode não ser precisa por causa dessas alterações intencionalmente erradas, mas existe uma grande comunidade, de humanos e robôs, que vasculham os verbetes para minimizar ao máximo os casos de vandalismo. Algumas edições são capturadas imediatamente, por sistemas automatizados, e outras enviam alertas de revisão. Por fim, existem os editores humanos.

Apesar disso, a Wikipédia se consolidou como uma fonte de informações confiáveis, diz Taraborelli. Prova disso seria o volume de tráfego gerado pela enciclopédia para artigos científicos. Dados computados pela CrossRef, agência oficial de registros DOI (Digital Object Identifier), usados pelos periódicos científicos, mostra que a Wikipédia é a sexta maior geradora de tráfego, surpreendentemente à frente do Google.

? É algo que nós não esperávamos ? diz Taraborelli. ? Um número muito grande de pessoas, sejam estudantes, pesquisadores ou médicos, fazem uma busca na Wikipédia e seguem para os artigos científicos.

Mas ainda existem barreiras para que a Wikipédia realmente se torne uma enciclopédia livre e para todos. Uma das principais é aumentar o número de verbetes em diferentes línguas. A enciclopédia possui artigos em 295 idiomas, mas apenas 13 têm mais de um milhão de artigos. E isso não está relacionado diretamente ao número de falantes, mas à participação da comunidade. O português, por exemplo, possui cerca de 940 mil verbetes, pouco mais que os que os 905 mil da versão chinesa da Wikipédia. A China, aliás, apresenta outra barreira para o alcance da enciclopédia. Por lá, a Wikipédia é bloqueada pelo governo na parte continental.

? Quase todo o nosso tráfego na China vem de Hong Kong ? diz Taraborelli. ? Além do bloqueio pelo firewall, eles possuem uma versão própria da Wikipédia, o Baidu Baike.