Blog do Galeno Observatório do Livro e da Leitura

19 de agosto de 2017

Inteligência artificial identifica autoria de obras literárias

Jornal da USP - 18/05/2017

Com uma taxa de 88,7% de acerto, a autoria de 71 obras literárias foi identificada por um sistema de inteligência artificial desenvolvido por pesquisadores do Instituto de Física de São Carlos (IFSC) e do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos. No total, o sistema avaliou 80 livros (em inglês) escritos por oito autores, como Charles Dickens, entre outros. O conceito do sistema é baseado em duas metodologias de física estatística: redes complexas e a análise de séries temporais.

As redes complexas têm auxiliado cientistas que trabalham com aprendizado de máquina – que consiste em treinar um sistema computacional a partir de dados, que podem ser de imagens, vídeos e textos, para identificar padrões; no caso do trabalho em questão, as redes complexas têm características não triviais em sua topologia. Já a segunda metodologia ajuda a entender fenômenos e sistemas cuja variação ao longo do tempo não pode ser prevista com modelos simples. Hoje, a análise de séries temporais é bastante útil no sistema financeiro, permitindo, por exemplo, prever a evolução de taxas de câmbio e ações de empresas nas bolsas de valores.

O sistema inteligente realiza vários passos. Cada livro é dividido em parcelas cujas redes de co-ocorrência tenham o mesmo número de palavras, transformando-se assim em uma série de redes. Em uma rede de co-ocorrência, as palavras de um texto são os nós, e cada vez que duas palavras aparecem juntas, uma aresta (ou seja, um link) é estabelecida entre elas. Se essas palavras co-ocorrentes se repetem, aumenta-se o peso das arestas. De cada rede extraem-se medidas de sua topologia. Tais medidas denotam, por exemplo, qual é o padrão de conexão na rede, se há nós muito mais conectados que outros, ou se os nós mais conectados se relacionam com aqueles que têm poucas conexões.

A série temporal é então formada pelas métricas de cada rede (parcela do texto) até o fim do livro analisado. Através das séries temporais relacionadas a esse trabalho, observou-se que há um padrão característico para cada autor, ou seja, as estruturas textuais dos escritores se assemelham às suas digitais. Isso foi aprendido pelo sistema inteligente a partir de algoritmos de aprendizado de máquina – a máquina acertou quais eram os autores de 71 livros analisados, a partir do algoritmo de melhor desempenho.

Autoria textual

“As características de um texto se revelam na maneira como o texto é estruturado”, explica o coordenador da pesquisa, professor Osvaldo Novais de Oliveira Junior, do IFSC. Segundo ele, o ato de dividir os livros em redes que evoluem no tempo – ao “ler” cada livro – é a principal inovação desse trabalho, pois em outros estudos encontrados na literatura sobre sistemas inteligentes para verificação de autoria textual, cada texto avaliado geralmente corresponde a uma única grande rede de co-ocorrência. Com a divisão dos trechos foi possível incluir metodologias de física estatística de séries temporais, melhorando a capacidade de análise.

Esse sistema “inteligente” poderá ser utilizado, por exemplo, na verificação de eventuais plágios e de qualidade de texto, independentemente do tamanho do conteúdo a ser analisado. O docente do IFSC afirma ainda que o objetivo final desse tipo de pesquisa é ensinar o computador a interpretar texto.

Mas será que os sistemas computacionais poderão compreender um texto? A resposta de Novais para essa pergunta é positiva, já que nos últimos anos tem havido um enorme progresso nessa área de estudo. Aliás, já se sabe que uma máquina pode, por exemplo, aprender a reconhecer objetos tal como uma criança faz – através de exemplos e, portanto, a partir de padrões! Com o aumento na capacidade de memória e processamento das máquinas, consegue-se antever que tarefas ainda mais complexas possam ser executadas.

A figura exemplifica uma rede de co-ocorrência de palavras extraídas do livro A Tale of Two Cities (Um Conto de Duas Cidades), de Charles Dickens – Imagem: Divulgação IFSC

Para ter uma máquina que, além de identificar autoria, compreenda o que está escrito em um texto, é preciso treiná-la com o maior número possível de exemplos. Atualmente, o sucesso desse tipo de estratégia é ilustrado pela considerável melhora nos tradutores automáticos, que agora já introduzem aprendizado de máquina. Os projetos do Núcleo Interinstitucional de Linguística Computacional, do qual Novais é membro fundador, em parceria com o Grupo de Computação Interdisciplinar do IFSC da USP, visam a desenvolver métodos e criar conceitos inovadores que também possam ser usados em grandes volumes de dados (o que se chama de Big Data).

“Podemos prever que o trabalho que estamos discutindo sirva de inspiração para projetos nos quais grandes volumes de dados serão processados e que, provavelmente, terão desempenho superior ao que tivemos”, diz o docente. Neste ano, um artigo descrevendo a citada pesquisa foi publicado na revista PLOS ONE, podendo ser acessado na íntegra aqui.

(Rui Sintra, da Assessoria de Comunicação do IFSC)

Mais Leitura digital

Todas as notícias sobre "Leitura digital"

Receba por e-mail


Cadastre-se!

Livrômetro

Relógio da leitura no Brasil

496.800.000

Livros lidos em 230 dias de 2017 no país