INESC-ID   Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
-
technology from seed

kdbio

Knowledge Discovery and Bioinformatics
Inesc-ID Lisboa
Home
 
 

Utilização da Estrutura de Ligações da Web em Problemas de Recuperação de Informação

11/04/2004 - 16:00
11/04/2004 - 17:00
Etc/GMT

Entre as muitas novas técnicas de Recuperação de Informação (RI) criadas no contexto da Web, análise de ligações é uma que tem atraído grande atenção. Neste trabalho, estudamos como ligações entre páginas Web podem ser aplicadas na resolução de dois problemas distintos: (a) ordenação de respostas a uma consulta e (b) classificação de documentos da Web. Para isso, modelos formais baseados em redes Bayesianas são propostos e validados através de testes executados numa colecção extraída da Web brasileira. Os resultados mostram que, efectivamente, ligações entre páginas Web são uma fonte de evidência importante, tanto para ordenar como para classificar documentos. Em ambos os casos, combinação de informação de ligações entre páginas Web com informação sobre o conteúdo das páginas produz resultados melhores do que aqueles obtidos com o uso de cada fonte de evidência isoladamente.