PROJECTOS DE INVESTIGAÇÃO CIENTÍFICA E DESENVOLVIMENTO TECNOLÓGICO

DBYeast: Infraestruturas e algoritmos para análise e identificação de redes de regulação genética

RELATÓRIO FINAL

Relatório de Execução Material

REFERÊNCIA DO PROJECTO Nº POSI/EIA/57398/2004

Data de Entrada_____________________ Data de Verificação__________________

Nº de Registo ______________________ Assinatura ________________________

Espaço reservado à Fundação para a Ciência e a Tecnologia

Text Box: Referência do projecto: POSC/EIA/57398/2004

Título do projecto: DBYeast: Infraestruturas e algoritmos para análise e identificação de redes de regulação genética
Data de Início do Projecto: 1/Janeiro/2005
Duração 36 Meses

Identificação da instituição proponente

Nome ou designação social INESC-ID: Instituto de Engenharia de Sistemas e Computadores, Investigação e Desenvolvimento em Lisboa

Morada: R. Alves Redol 9

Localidade: Lisboa Código postal: 1000

Telefone: 213100300 Fax: 213145843 Email: aml@inesc-id.pt

Unidade responsável pela execução do projecto

Nome: Knowledge Discovery and Bioinformatics Group

Morada: R. Alves Redol 9

Localidade: Lisboa Código postal: 1000

Telefone : 213100228 Fax : 213145843 Email: aml@inesc-id.pt

Identificação do investigador responsável

Nome: Arlindo Manuel Limede de Oliveira

Telefone : 213100228 Fax : 213145843 Email: aml@inesc-id.pt

Instituições que participam no projecto

Não houve desvios relativamente ao projecto original nas instituições que participam, que continuam a ser o INESC-ID, grupo ALGOS/KDBIO e o grupo BSRG do IBQF.

Equipa de investigação em 2007

NOME	CARGO/FUNÇÃO	TAREFAS	%TEMPO	INSTITUIÇÃO
Arlindo Manuel Limede de Oliveira	Invest. Principal	Coordenação T1, T2, T3, T4	35	INESC-ID
Ana Teresa Correia de Freitas	Investigadora	T1, T2	35	INESC-ID
Marie-France Sagot	Investigadora	T3	10	INRIA
Sara Alexandra Cordeiro Madeira	Investigadora	T3	50	INESC-ID
Luís Manuel Silveira Russo	Investigador	T2	50	INESC-ID
Pedro Tiago Gonçalves Monteiro	Investigador	T1, T4	20	INESC-ID
Alexandra Sofia Martins de Carvalho	Investigador	T2	20	INESC-ID
Miguel Nobre Parreira Cacho Teixeira	Investigador	T1, T5	15	IBQF
Marta Bebiano Alenquer	Investigador	T1, T5	20	IBQF
Isabel Maria de Sá-Correia	Investigador	T1, T5	5	IBQF
Nuno Gonçalo Pereira Mira	Investigador	T1, T5	20	IBQF
Mauro Dala Santos	Bolseiro	T4	80	INESC-ID
Maria Sofia Reis Orey	Bolseira	T4	50	INESC-ID
Nuno Alexandre Horta Nobre	Bolseiro	T4	33	INESC-ID
José Alberto Amoreira Casteleira Alves	Bolseiro	T4	33	INESC-ID

Em anos anteriores, participaram ainda no projecto:

Artur Pedro Duarte Reis Lourenço

Bolseiro

INESC-ID

Maria Alexandra Núncio de Carvalho

Investigadora

T1, T5

IBQF

Esforço global do projecto, expresso na unidade pessoa*mês

Unidade: em número

Instituição Proponente (INESC-ID) 119

Instituto de Biologia e Química Fina 27

Objectivos

O projecto foi planeado em 5 tarefas, que correspondem, de forma geral, aos objectivos principais do projecto.

T1 - Base de dados para processos regulatórios em Yeast

T2 - Algoritmos combinatórios para análise de sequências

T3 - Aplicação de algoritmos de biclustering para identificação de motivos regulatórios

T4 - Integração de ferramentas e disponibilização dos sistemas

T5 - Análise de dados reais usando as ferramentas desenvolvidas

Todas as tarefas foram levadas a cabo, tendo sido atingidos os objectivos gerais do projecto, nomeadamente:

- Criação e disponibilização para a comunidade científica de um sistema de informação que suporte o estudo de mecanismos de regulação genética no organismo modelo S. cerevisiae.

- Desenvolvimento de métodos e algoritmos para a análise de mecanismos de regulação genética.

- Aplicação e uso do sistema e algoritmos desenvolvidos a problemas biológicos.

Descrição das actividades

No âmbito da tarefa T1, foi desenvolvido o sistema de informação YEASTRACT [J.1][J.2][T.2][C.4], que foi alvo de publicação numa prestigiada revista da especialidade, tendo este sistema sido extensivamente usado pela comunidade científica internacional. Este sistema, desenvolvido em estreita colaboração entre os grupos do INESC-ID e do IBQF/IST, continuou a ser desenvolvido posteriormente a 2006, sendo introduzidas novas funcionalidades, e tendo continuado a ser integrada nova informação biológica. O sistema é dedicado à análise da regulação transcricional em Saccharomyces cerevisiae. Reúne uma grande quantidade de informação biológica, anteriormente dispersa por centenas de publicações científicas. A informação relevante para atingir este objectivo encontrava-se presente em bases de dados públicas como é o caso da SGD (Saccharomyces Genome Database), a RSAT (Regulatory Sequence Analysis Tools) e a GO (Gene Ontology). O sistema inclui ainda ferramentas computacionais que permitem explorar a informação aí reunida em estudos de regulação da expressão genética, quer à escala genómica quer gene-a-gene. A Profª Ana Teresa Freitas assumiu a responsabilidade pela coordenação da nova release do sistema, que foi efectuada em Novembro de 2007 [J.7], com funcionalidade acrescida, que inclui a disponibilização de novos algoritmos desenvolvidos na tarefa T2.

Desde a disponibilização do sistema, em Janeiro de 2006, a base de dados tem sido actualizada regularmente, contendo agora 30990 associações de regulação e descrevendo 284 locais de ligação ao DNA, específicos de 108 factores de transcrição. Durante o primeiro ano de execução do projecto, 300 grupos, provenientes de 60 países, acederam mais de 60.000 vezes à base de dados YEASTRACT.

No âmbito da tarefa T2, foram desenvolvidos, conforme planeado, modelos e algoritmos para a análise de regiões promotoras.

A primeira componente desta tarefa consistiu no desenvolvimento de algoritmos fundamentais para indexação e procura aproximada em bases de dados de sequências [C.1][C.3][C.7][C.8][C.21], considerando tanto o caso em que os dados são armazenados sem compressão, como o caso, muito relevante para esta aplicação, da indexação de dados comprimidos. Este trabalho deu origem a uma tese de doutoramento [T.8].

A segunda componente desta tarefa consistiu no desenvolvimento de modelos e algoritmos para a identificação de motivos em regiões promotoras. Os diversos algoritmos desenvolvidos foram publicados em revistas e conferências da especialidade [J.4][J.5][C.6][C.9][C.12][C.19][C.20][C.22]. No contexto desta tarefa decorreu uma tese de doutoramento [T.9], e foram defendidas três teses de mestrado [T.1][T.3][T.7]. As duas ferramentas computacionais desenvolvidas foram disponibilizadas à comunidade científica [A.1][A.2].

No âmbito da tarefa T3, foram desenvolvidos algoritmos para a análise de expressão, e para a integração destes dados com dados de sequência, com o objectivo de identificar mecanismos e módulos regulatórios. No âmbito desta tarefa, foram publicados diversos artigos em conferências internacionais [C.2][C.11][C.15][C.17][C.18], nacionais [C.23][C.24][C.25][C.26][C.27] e elaborados diversos relatório internos [R.1][R.2][R.3][R.4][R.5][R.6]. O software desenvolvido no âmbito desta tarefa será disponibilizado para a comunidade científica durante o primeiro semestre de 2008. No âmbito desta tarefa decorreu uma tese de doutoramento [T.10], duas teses de mestrado [T.5][T.6] e uma tese de graduação [T.5].

A tarefa T4, integração de sistemas, foi desenvolvida em paralelo com as tarefas T1, T2 e T3, sendo indispensável à disponibilização do sistema para uma vasta comunidade de utilizadores. O continuado desenvolvimento do sistema, tanto de um ponto de vista da estrutura computacional, como de manutenção da qualidade dos dados, não tem um reflexo directo em publicações, dado tratar-se de uma actividade fundamentalmente de suporte. No entanto, esta tarefa foi fundamental para que o sistema se mantivesse operacional e actualizado. O resultado da integração das diversas componentes traduz-se de forma mais directa no artigo [J.7], aceite para publicação na Nucleic Acids Research no final do ano 2007. Estiverem mais directamente envolvidos nesta tarefa o investigador Pedro Monteiro, e os bolseiros Sofia Orey, Mauro Santos, João Casteleiro e Nuno Nobre.

Finalmente, a execução da tarefa T5 permitiu validar o sistema desenvolvido, tendo sido obtidos diversos resultados de grande relevo. O sistema foi intensamente validado, tanto por utilizadores exteriores, como por investigadores do projecto. A execução da tarefa T5, coordenada pela Profª Isabel Sá-Correia, baseou-se na condução análises globais das alterações à expressão dos genes de levedura exposta a stresses químicos diversos, ao nível do transcritoma e/ou do proteoma. Os resultados foram analisados com recurso às ferramentas desenvolvidas no âmbito deste projecto. Estão neste momento em preparação artigos que descrevem a resposta global da levedura a dois stresses químicos, tendo sido já publicados diversos artigos [J.3][J.6][J.8] e efectuadas diversas comunicações em conferências internacionais [C.10][C.13][C.14][C.16].

Objectivos Atingidos

O projecto decorreu de acordo com o previsto, tendo sido atingidos todos os objectivos da proposta original. É de referir que foi alcançado o grande marco de tornar disponível para a comunidade científica o sistema Yeastract, que alcançou grande impacto na comunidade científica da área.

Para além do sistema Yeastract, objectivo fundamental do projecto, foram desenvolvidos diversos métodos e algoritmos para a análise de mecanismos regulatórios, que foram publicados nas mais prestigiosas revistas e conferências da especialidade, e foram aplicadas as ferramentas desenvolvidas a problemas reais.

O projecto suportou um conjunto de actividades de investigação muito significativo, tendo dado origem a um número muito significativo de dissertações.

O valor dos indicadores de produtividade encontra-se aproximadamente dentro do esperado. O desvio entre o número de artigos em revista previsto e obtido será colmatado, em parte, por diversas publicações que se encontram ainda em fase de revisão, e que virão a concretizar-se nos meses seguintes ao término do projecto. Dada a necessidade de elaboração deste relatório ainda em 2007 (imposta pela FCT), não foi possível incluir dados sobre estas publicações.

Publicidade aos apoios POS_Conhecimento

O apoio do POSC foi amplamente reconhecido, tendo agradecimentos ao projecto sido explicitamente incluídos nas publicações e sites mais relevantes. O logo do POSC e um agradecimento ao projecto foi explicitamente incluído na página do sistema Yeastract (ver ficheiro em anexo).

Execução Financeira

A execução financeira do projecto decorreu, essencialmente, de acordo com o planeado. Os ajustes de pormenor e as transferências entre rúbricas soliticitados são pouco significativos face ao montante total financiado, e foram devidamente justificados em correspondência com a FCT.

Indicadores de realização física

(Referente à totalidade do projecto)

Unidade: em número

A- Publicações

Livros

Artigos em revistas internacionais 7

Artigos em revistas nacionais 1

B- Comunicações

Em congressos científicos internacionais 21

Em congressos científicos nacionais

C- Relatórios 6

D- Organização de seminários e conferências

E- Formação Avançada

Teses de Doutoramento 1 (terminada) 2 (em curso)

Teses de Mestrado 5

Graduação 1

F- Modelos

G- Aplicações computacionais 2

H- Instalações Piloto

I- Protótipos laboratoriais

J- Patentes

L- Páginas Web 2

Publicações

Artigos em revistas científicas:

[J.1] Miguel C. Teixeira and Pedro Monteiro and Pooja Jain and Sandra Tenreiro and Alexandra R. Fernandes and Nuno Mira and Marta Alenquer and Ana T. Freitas and Arlindo L. Oliveira and Isabel Sá-Correia, A Bioinformática e as Bases de Dados: o exemplo de uma Base de Dados para Análise de Mecanismos de Regulação em Levedura, , 81(), pp. 23-31, Aug. 2005, Sociedade Portuguesa de Biotecnologia.

[J.2] Miguel C. Teixeira and Pedro Monteiro and Pooja Jain and Sandra Tenreiro and Alexandra R. Fernandes and Nuno P. Mira and Marta Alenquer and Ana T. Freitas and Arlindo L. Oliveira and Isabel Sá-Correia, The YEASTRACT database: a tool for the analysis of transcription regulatory associations in Saccharomyces cerevisiae, Nucleic Acids Research, 34(), pp. D446-D451, Jan. 2006, Oxford Journals.

[J.3] Miguel C. Teixeira, Alexandra R. Fernandes, Nuno P. Mira, J. D. Becker, Isabel Sá-Correia, Early transcriptional response of Saccharomyces cerevisiae to stress imposed by the herbicide 2,4-dichlorophenoxyacetic acid, FEMS Yeast Research 6 (2): 230-248 Mar. 2006.

[J.4] Alexandra M. Carvalho and Ana T. Freitas and Arlindo L. Oliveira and Marie-France Sagot, An Efficient Algorithm for the Identification of Structured Motifs in DNA Promoter Sequences, IEEE Transactions on Computational Biology and Bioinformatics, 3(2), pp. 126-140, Apr. 2006, IEEE.

[J.5] Nuno Mendes and Ana Casimiro and Pedro M. Santos and Isabel Sá-Correia and Arlindo L. Oliveira and Ana T. Freitas, MUSA: a parameter free algorithm for the identification of biologically significant motifs, Bioinformatics, 22(24), pp. 2996-3002, Dec. 2006, Oxford Journals.

[J.6] Miguel C. Teixeira, Paula Duque, Isabel Sá-Correia I, Environmental genomics: mechanistic insights into toxicity of and resistance to the herbicide 2,4-D, Trends In Biotechnology 25 (8): 363-370 Aug. 2007.

[J.7] Pedro Monteiro and Nuno Mendes and Miguel C. Teixeira and Sofia Orey and Sandra Tenreiro and Nuno Mira and Hélio Pais and Alexandre P. Francisco and Alexandra M. Carvalho and Artur Lourenço and Isabel Sá-Correia and Arlindo L. Oliveira and Ana T. Freitas, YEASTRACT-DISCOVERER: new tools to improve the analysis of transcriptional regulatory associations in Saccharomyces cerevisiae, Nucleic Acids Research, Nov. 2007, doi:10.1093/nar/gkm976, Oxford University Press.

[J.8] Miguel C. Teixeira, Paulo J. Dias, Tânia Simões, Isabel Sá-Correia, Yeast adaptation to mancozeb involves the up-regulation of FLR1 under the coordinate control of Yap1, Rpn4, Pdr3 and Yrr1, Biochemical Research Communications, (2008) doi:10.1016/j.bbrc.2007.12.056.

Comunicações em conferências internacionais:

[C.1] Luis Russo and Arlindo L. Oliveira, Faster Generation of Super Condensed Neighbourhoods Using Finite Automata, String Processing and Information Retrieval, Nov. 2005, pp. 246-255, Springer.

[C.2] Sara C. Madeira and Arlindo L. Oliveira, A Linear Time Biclustering Algorithm for Time Series Gene Expression Data, 5th Workshop on Algorithms in Bioinformatics (WABI), Oct. 2005 , pp. 39-52 , Springer.

[C.3] Luis Russo and Arlindo L. Oliveira, An Efficient Algorithm for Generating Super Condensed Neighborhoods, Combinatorial Pattern Matching: 16th Annual Symposium (CPM), Jun. 2005 , pp. 104-115 , Springer.

[C.4] Pedro Monteiro and Miguel C. Teixeira and Pooja Jain and Sandra Tenreiro and Alexandra R. Fernandes and Nuno Mira and Marta Alenquer and Ana T. Freitas and Arlindo L. Oliveira and Isabel Sá Correia, YEASTRACT: a database of transcription regulatory associations in Saccharomyces cerevisiae, BKDB2005 - Bioinformatics: Knowledge Discovery in Biology, Jun. 2005 , pp. 34-38 .

[C.5] Sara C. Madeira and Arlindo L. Oliveira, A linear time biclustering algorithm for time series gene expression data The Learning Workshop, Mar. 2005.

[C.6] Alexandra M. Carvalho and Ana T. Freitas and Arlindo L. Oliveira and Marie-France Sagot, A highly scalable algorithm for the extraction of cis-regulatory regions, Proceedings of the 3rd Asia Pacific Bioinformatics Conference, Jan. 2005 , pp. 273-282 , Imperial College Press.

[C.7] Luís M. S. Russo and Arlindo L. Oliveira, A Compressed Self-index Using a Ziv-Lempel Dictionary, String Processing and Information Retrieval, Oct. 2006 , pp. 163-180 , Springer.

[C.8] Luis Coelho and Arlindo L. Oliveira, Dotted Suffix Trees: A Structure for Approximate Text Indexing, String Processing and Information Retrieval, Oct. 2006 , pp. 329-336 , Springer.

[C.9] Dominik Beck and Jonas S Almeida and Ana T. Freitas and Arlindo L. Oliveira and Susana Vinga, Chaos Game Representation and Vector Quantization (CGR-VQ): a new computational tool for the identification of transcription factor binding sites. (Extended abstract)., ISMB'2006 International Conference on Intelligent Systems for Molecular Biology, Aug. 2006.

[C.10] Miguel Cacho Teixeira and Pedro Monteiro and Sandra Tenreiro and Alexandra M. Carvalho and Nuno Mendes and Ana Casimiro and Carlos Filipe Almeida de Oliveira and Christian Sá Nogueira and Ana T. Freitas and Arlindo L. Oliveira and Isabel Sá Correia, Analysis of transcription regulatory associations in Saccharomyces cerevisiae using the YEASTRACT database. (Extended abstract)., 2nd FEMS Congress of European Microbiologists, Jul. 2006.

[C.11] Sara C. Madeira and Arlindo L. Oliveira, Discovering Modules in Time-Series Gene Expression Data using Biclustering (Abstract), IFCS Conference on Data Science and Classification, Jul. 2006.

[C.12] Nadia Pisanti and Alexandra M. Carvalho and Laurent Marsan and Marie-France Sagot, RISOTTO: Fast extraction of motifs with mismatches, Proceedings of the 7th Latin American Theoretical Informatics Symposium, Mar. 2006 , pp. 757-768 , Springer.

[C.13] Teixeira M.C., Fernandes A.R., Mira N.P., Santos P.M., Simões T., Viegas C.A., Becker J.D., Sá-Correia I., “Global response to stress imposed by the herbicide 2,4-D in the eukaryotic experimental model Saccharomyces cerevisiae”, 2nd FEMS Congress of European Microbiologists, Madrid, Espanha, pp. 303, 4-8 Julho, 2006

[C.14] Teixeira M.C., Monteiro P., Tenreiro S., Mira N., Carvalho A.M., Mendes N., Casimiro A., Nogueira C., Oliveira C., Freitas A.T., Oliveira A.L., Sá-Correia I., “Analysis of transcription regulatory associations in Saccharomyces cerevisiae using the YEASTRACT database”, Yeast Genetics and Molecular Biology Meeting, Princeton University, New Jersey, USA, pp. 238, 25-30 Julho, 2006

[C.15] Sara C. Madeira and Arlindo L. Oliveira, An Efficient Biclustering Algorithm for finding Genes with Similar Patterns in Time-Series Expression Data, Asia Pacific Bioinformatics Conference, pp. 67-80, Imperial College Press, Jan. 2007.

[C.16] Miguel C. Teixeira and Pedro Monteiro and Sandra Tenreiro and Nuno P. Mira and Artur B. Lourenço and Alexandra M. Carvalho and Nuno Mendes and Sofia Orey and Hélio Ernesto Coronel Machado Pais and Ana T. Freitas and Arlindo L. Oliveira and Isabel Sá-Correia, Analysis of transcription regulatory associations in Saccharomyces cerevisiae using the YEASTRACT database, 3rd Conference on Physiology of Yeasts and Filamentous Fungi, Jun. 2007

[C.17] Ana T. Freitas and Ana P. Ramalho and Carlos A. Oliveira and Christian S. Nogueira and Miguel C. Teixeira and Isabel Sá-Correia and Arlindo L. Oliveira, Identification of cooperative mechanisms in transcription regulatory networks using non-supervised learning techniques, ECML/PKDD workshop on Data Mining in Functional Genomics and proteomics: Current Trends and Future Directions, Aug. 2007.

[C.18] André Martins and Sara C. Madeira and Ana T. Freitas and Arlindo L. Oliveira, Identification of transcriptional regulatory modules from time series expression data, promoter sequences and documented reguatory interactions (Poster), ISMB/ECCB, Jul. 2007.

[C.19] Alexandra M. Carvalho and Arlindo L. Oliveira and Marie-France Sagot, Efficient learning of Bayesian network classifiers: An extension to the TAN classifier, Proceedings of the 20th Australian Joint Conference on Artificial Intelligence, Dec. 2007 , pp. 16-25 , Springer-Verlag.

[C.20] Alexandra M. Carvalho and Arlindo L. Oliveira, Learning Bayesian networks consistent with the optimal branching, Proceedings of the 6th International Conference on Machine Learning and Applications, Dec. 2007.

[C.21] Luís M. S. Russo and Gonzalo Navarro and Arlindo L. Oliveira, Approximate String Matching with Lempel-Ziv Compressed Indexes, String Processing and Information Retrieval, Oct. 2007 , pp. 264-275 , Springer.

[C.22] Nuno Mendes and Ana Casimiro and Pedro Santos and Isabel Sá-Correia and Arlindo L. Oliveira and Ana T. Freitas, Identification of biologically relevant motifs in the promoter regions of coordinately expressed Pseudomonas Putida genes using the new algorithm MUSA, National Congress of Biochemistry, Dec. 2006 , pp. 100 , Aveiro.

[C.23] Miguel Teixeira and Pedro Monteiro and Nuno Mira and Sandra Tenreiro and Ana T. Freitas and Arlindo L. Oliveira and Isabel Sá-Correia, The YEASTRACT database: application to the analysis of Saccharomyces Cerevisiae genome-wide expression data, National Congress of Biochemistry, Dec. 2006 , pp. 30 , Aveiro.

[C.24] Arlindo L. Oliveira and Ana T. Freitas and Isabel Sá-Correia, Bioinformatics: A New Approach for the Challenges of Molecular Biology, Investigação científica na Universidade Técnica de Lisboa, Jan. 2006 , Springer.

[C.25] Arlindo L. Oliveira, Computational methods for the detection of biologically significant motifs in promoter sequences, Invited talk at Micro’07-Biotec’07-XXXIII, Dec. 2007.

[C.26] Pedro Monteiro and Nuno Mendes and Miguel Teixeira and Sofia d'Orey and Sandra Tenreiro and Nuno Mira and Hélio Pais and Alexandre P. Francisco and Alexandra M. Carvalho and Artur Lourenço and Isabel Sá-Correia and Arlindo L. Oliveira and Ana T. Freitas, Analysis of new and known DNA-binding site motifs in Saccharomyces cerevisiae using the YEASTRACT-DISCOVERER tools, Micro’07-Biotec’07-XXXIII, Dec. 2007 (Prémio SARTORIUS Inovação).

[C.27] André Martins and Sara C. Madeira and Ana T. Freitas and Isabel Sá-Correia and Arlindo L. Oliveira, Identifying regulatory modules in the yeast Saccharomyces Cerevisiae transcriptional network involved in stress response, Micro’07-Biotec’07-XXXIII, Dec. 2007.

Relatórios Técnicos:

[R.1] Sara C. Madeira and Arlindo L. Oliveira, An Evaluation of Discretization Methods for Non-Supervised Analysis of Time-Series Gene Expression Data, INESC-ID Tec. Rep. 42/2005, Dec 2005.

[R.2] Sara C. Madeira and Arlindo L. Oliveira, A Linear Time Biclustering Algorithm for Time Series Gene Expression Data, INESC-ID Tec. Rep. 4/2005, Mar 2005.

[R.3] Christian Sá Nogueira and Carlos Filipe Almeida de Oliveira and Arlindo L. Oliveira and Ana T. Freitas, Algoritmos para a inferência de Redes de Regulação de Genes, INESC-ID Tec. Rep. 18/2006, Jul 2006.

[R.4] Sara C. Madeira and Arlindo L. Oliveira, An Overview on Mixture and Hidden Markov Models of Gene Expression in Time Series, INESC-ID Tec. Rep. 41/2006, Dec 2006.

[R.5] Artur Lourenço and Mário Silva and Ana T. Freitas, A new methodology for the analysis and validation of clusters and biclusters of genes, INESC-ID Tec. Rep. 6/2007, Feb 2007.

[R.6] Sara C. Madeira and Joana P. Gonçalves and Arlindo L. Oliveira, Efficient Biclustering Algorithms for identifying transcriptional regulation relationships using time series gene expression data, INESC-ID Tec. Rep. 22/2007, Jul 2007.

Teses:

[T.1] Nuno Mendes, Inference of Complex Motifs Using Biclustering Techniques, MSc Thesis, Instituto Superior Técnico, Nov 2005 .

[T.2] Pedro Monteiro, Sistema de gestão da informação genómica associada à regulação da transcrição em Saccharomyces Cerevisiae, MSc Thesis, Instituto Superior Técnico, May 2005 .

[T.3] Ana Casimiro, Análise da significância estatística de motivos em sequências de ADN, Graduation Thesis, Instituto Superior Técnico, Sep 2005.

[T.4] Ana Ramalho, Métodos de biclustering para a identificação de mecanismos de regulação genética, MSc Thesis, Instituto Superior Técnico, Jul 2006.

[T.5] Christian Sá Nogueira and Carlos Filipe Almeida de Oliveira, Algoritmos para a Inferência de Redes de Regulação de Genes, Graduation Thesis, IST, Jul 2006 .

[T.6] Artur Lourenço, Análise e validação dos resultados obtidos por algoritmos de Biclustering quando aplicados à identificação de redes de regulação genética, MSc Thesis, Universidade de Lisboa, Feb 2007.

[T.7] Ana Cristina Mercê Casimiro, Análise de sequências de ADN: contribuição do local de ocorrência para identificação de motivos biológicos relevantes, MSc Thesis, Instituto Superior Técnico, May 2007.

[T.8] Luís M. S. Russo, Enhanced Full-Text Self-Indexes based on Lempel-Ziv Compression, PhD Thesis, Instituto Superior Técnico, Oct 2007.

[T.9] Alexandra M. Carvalho, Efficient algorithms for motif extraction in DNA promoter sequences, PhD Thesis, Instituto Superior Técnico, em preparação.

[T.10] Sara C. Madeira, Biclustering Algorithms for Biological Data Analysis, PhD Thesis, em preparação.

Aplicações computacionais:

[A.1] http://kdbio.inesc-id.pt/~asmc/software/riso.html

[A.2] http://kdbio.inesc-id.pt/~ndm/software/musa.html

Páginas Web:

[W.1] http://www.yeastract.com

[W.2] http://www.yeastract.com/discoverer