INESC-ID   Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
-
technology from seed

kdbio

Knowledge Discovery and Bioinformatics
Inesc-ID Lisboa
Home
 
 

Extracção de Informação da Literatura Biológica

05/09/2003 - 13:30
05/09/2003 - 14:30
Etc/GMT

Os resultados obtidos em biologia molecular, tal como em outras áreas de estudo, têm sido na sua maior parte publicados na literatura científica sobre a área. A literatura é um conjunto enorme de informação não estruturada, o que torna penoso o acesso aos resultados nela documentados. Para lidar com este problema, foram criadas ao longo dos últimos anos bases de dados que organizam de forma sistematizada esses resultados. Contudo, o crescimento destas bases de dados nas últimas décadas tem sido exponencial, tornando a sua actualização um processo impossível quando feito manualmente, e sujeito a muitos erros quando automaticamente. Os maiores problemas na extracção automática de informação da literatura são a nomenclatura e as diferentes classificações dadas às entidades biológicas (e.g. genes, proteínas). Desta forma, muitos dos resultados obtidos em biologia molecular continuam ainda só descritos na literatura.

A apresentação será constituída pelos seguintes tópicos:
1. Breve introdução à problemática da Extracção de Informação e “Text Mining”.
2. Descrição da nossa participação na KDD-Cup 2002, competição internacional de Extracção de Informação da Literatura Biológica. Comparação de resultados e conclusões obtidas.
3. Apresentação do projecto ReBIL (“Relating Biological Information through Literature”), onde desenvolvemos técnicas de extracção automática de informação da literatura assumindo o dogma da biologia molecular, que afirma que a função de uma entidade biológica está relacionada com a sua estrutura.