• (35) 2105-5555
  • csul@correiodosul.com
  • Rua Marcelino Rezende, 26 - Parque Catanduvas

Trabalho sobre predição de qualidade de artigos da Wikipédia é destaque em evento

Pesquisadores do Departamento de Computação do CEFET-MG criaram e disponibilizaram base de dados com dois milhões de edições de artigos da Wikipédia

Foto: CSul.

Se você é um estudante e busca por referências on-line, já deve ter ouvido de algum professor que a Wikipédia pode não ser uma plataforma confiável para coleta de dados. Por ter uma estrutura aberta e permitir modificações de forma colaborativa, a plataforma não pode garantir a confiabilidade e a validade das informações.

A ferramenta, um dos maiores repositórios de conhecimento humano do mundo, despertou a atenção dos estudantes de Engenharia da Computação campus Nova Gameleira Ana Luiza Sanches e Sinval Vieira, e dos pesquisadores Daniel Dalip (Departamento Computação CEFET-MG) e Bárbara  Lopes (doutoranda na UFMG).

Os autores destacam as dificuldades para identificação na qualidade dos artigos disponíveis na Wikipédia por especialistas humanos, dada a alta velocidade de modificação nos documentos disponíveis na plataforma o tempo todo. Para auxiliar nesse processo, o grupo de pesquisadores criou e disponibilizou uma base de dados para ser utilizada na obtenção de métodos automáticos de predição de qualidade de artigos disponíveis na plataforma e disponibilizou o algoritmo de coleta utilizado na criação dessa base de dados.

O professor Daniel explica que cada artigo da Wikipédia é composto por um histórico de edições e um valor representando a qualidade, anotado por humanos. Essa qualidade é definida por meio de critérios como clareza do texto, citações verificáveis e completeza. “O trabalho apresenta uma base de dados, desenvolvida pelos alunos, que possui cerca de dois milhões de edições de artigos da Wikipédia. Cada revisão possui características extraídas do texto nessa revisão (tamanho, número de seções, número de citações…) e sua classe de qualidade no instante da revisão”, acrescenta.

A pesquisa é fruto do Trabalho de Conclusão de Curso da estudante Ana Sanches, desdobrada pelo aluno Sinval Vieira. Bárbara Lopes é doutoranda em Computação da UFMG e auxiliou na elaboração do artigo e na finalização do Dataset (Base de Dados). Devido à qualidade, foi considerado o melhor artigo no “Dataset Showcase Workshop” do Simpósio Brasileiro de Banco de Dados (SBBD), que aconteceu de 19 a 23 de setembro em Búzios (RJ). O evento é a principal conferência brasileira e a maior da América Latina sobre ciência de dados e big data e envolve as comunidades científica, acadêmica e industrial nacionais e internacionais.

Fonte: CEFET-MG.