Veja no final informações adicionais sobre os projetos.
O Blast é um programa que compara uma seqüência dada a um conjunto grande de outras seqüências, retornando os melhores alinhamentos locais encontrados. Neste projeto deve-se fazer um programa que recebe a saída de Blast de uma seqüência dada contra um genoma anotado, que consiste em uma seqüência muito longa e varias outras que são pedaços da maior (genes). O objetivo aqui é fazer uma saída gráfica que mostre os alinhamentos locais retornados num contexto onde apareçam também os genes próximos aos locais onde foram encontradas as similaridades.
O programa blast está disponível em www.ncbi.nlm.nih.gov, nas versões linha de comando e Web. Para fazer a saída gráfica recomendamos o módulo GD em Perl, que pode ser obtido em www.cshl.gov/~lstain. Há também como usar o GD em C ou C++.
O projeto deve resultar numa modificação da interface Web do Blast para que a figura da vizinhança seja gerada em lugar da figura normalmente exibida pelo Blast. Para o checkpoint, um exemplo de figura resultante, para dados reais, deve ser exibida.
Neste projeto deve-se procurar anotações erradas de proteinas no GenBank (dizem que há muitas) e tentar descobrir como se chegou a estas anotações, por exemplo, traçando um caminho de similaridades entre uma proteína corretamente anotada e a proteína erroneamente anotada, possivelmente passando por proteínas intermediárias.
Este projeto requer conhecimentos biológicos acima da média necessária para os outros projetos. Por isso seria aconselhável que fosse feito por um aluno com formação nesta área, ou por um grupo com pelo menos um aluno com tal formação.
No projeto Xylella foram colhidos dados de hibridização entre clones de pedaços da bactéria e sondas oriundas de várias fontes, não necessariamente únicas. A tarefa aqui seria construir um mapa físico dos clones e das sondas, e comparar os resultados com a localização real dos clones, hoje conhecida.
Há várias abordagens. Uma delas seria tentar primeiramente determinar quais sondas são únicas, e usar apenas estas. Outra fazer uma média entre os dados (há dados de hibridização correspondentes a três momentos diferentes do projeto, cada um deles em geral acrescentando dados ao anterior, mas em alguns casos desprezando alguns dados do anterior). O checkpoint poderia ser a aplicação de uma estratégia simples e possíveis diagnósticos sobre o que tentar depois.
Este é um projeto de cunho teórico, onde o aluno ou grupo tentará encontrar relações entre o problema do alinhamento múltiplo e o problema de montagem de fragmentos, a nível de suas respectivas formalizações. Algumas perguntas concretas aqui seriam: (1) suponha que modelamos alinhamento múltiplo como maximização da medida SP de pontuaçlão, desconsiderando buracos nas extremidades; seria isto equivalente à modelagem do problema de montagem de fragmentos chamada de RECONSTRUCTION no livro? ou ao MULTICONTIG? e outras deste gênero.
Um checkpoint para este projeto seria a resposta a algumas das perguntas, por exemplo àquelas feitas acima. Dependendo se a resposta for positiva ou negativa, o projeto continuaria numa direção ou outra, a definir.
Para saber se duas seqüências são homólogas em geral não é suficiente rodar um algoritmo de comparação de seqüências e olhar sua resposta. Há um método que consiste em rodar esta comparação com várias "embaralhadas" de uma das seqüências e observar se a comparação com a verdadeira fica suficientemente afastada da média. Segundo me contaram, este método é conhecido como "método de Monte Carlo". A tarefa aqui consiste em tomar um genoma completo (por exemplo, Thermotoga maritima), buscar cada ORF no GenBank, e analisar os pares ORF e hit-mais-forte de acordo com este método.
Checkpoint: Baixar o genoma e executar as comparações de cada ORF com
o GenBank, de modo a obter os pares que serão testados. Baixar o
pacote FASTA de Bill Pearson, onde há um aplicativo que executa o
método. Veja
http://www.ch.embnet.org/software/PRSS_form.html
para maiores informações.
Este é um projeto que pode ser muito simples, mas eu não sei como fazer, então aqui vai. Trata-se de determinar, em tempo polinomial, se é possível atribuir vetores de características aos nós internos de uma topologia dada de modo a obter uma filogenia perfeita. Deve haver literatura sobre isto, mas desconheço devido à falta de oportunidade de procurar.
Checkpoint: o próprio projeto, caso seja simples. Ou a explicação de porque é difícil, caso seja difícil.
Este tema parece ser a coqueluche do momento no cenário genômico do Estado de São Paulo. Todo mundo está querendo processar dados de expressão. Neste projeto eu gostaria de colocar em funcionamento um sistema, mesmo que simples, onde dados de expressão gênica pudessem ser armazenados e consultados de diversas formas por usuários da área biológica. Num caso típico, o usuário teria uma coleção fixa e muito grande de genes, e resultados da expressão destes em diversas condições C1, C2, etc. Cada condição representaria um arquivo onde estivessem codificados os genes e um número real para cada um, indicando o nível de expressão deste gene. Este sistema simples teria no mínimo um banco de dados por trás e uma interface Web pela frente. Portanto, o aluno ou grupo que fosse desenvolver isto teria que ter experiência (ou ganas de ganhar experiência) em serviços Web relacionados a um banco de dados. Dou preferência a Unix, onde tudo pode ser obtido livre (Apache e MySQL, por exemplo), mas soluções Windows serão consideradas.
Este projeto provavelmente contaria com a parceria de algum cientista da área biológica da Unicamp, para obtenção dos dados e para dicas sobre consultas apropriadas.
Checkpoint 1: definição da parceria biológica, do BD do servidor Web, e da máquina onde tudo será implementado.
Checkpoint 2: protótipo que responde a perguntas do tipo "dadas duas condições C1 e C2, quais são os genes mais expressos em C1 do que em C2?".
O genoma da bactéria Xylella fastidiosa foi todo anotado usando-se a ferramenta BLAST para comparação dos genes encontrados contra as bases de dados internacionais. Um outro programa muito usado neste tipo de trabalho é o FASTA. Neste projeto a tarefa seria comparar as quase 3000 orfs (genes) da Xylella usando FASTA, e observar se há diferenças significativas entre os resultados. Exige mais conhecimentos biológicos que a maioria dos outros projetos.
Checkpoint: comparação usando apenas uma parte dos genes (100 genes).
Este projeto foi feito sob encomenda para o aluno Marcelo, pois está relacionado com a sua dissertação de mestrado. Nada impede porém que outros participem.
Neste projeto a tarefa é comparar as bactérias Xylella e Xanthomonas, a primeira já com o genoma completo conhecido, a segunda em vias de ter seu genoma seqüenciado, mas possivelmente não a anotação, que só sairia após o curso terminar. A maneira mais simples que me ocorre de comparar as duas seria ter a relação completa dos genes da Xylella de um lado, uma relação incompleta dos genes da Xanthomonas de outro, e possibilidades de fazer consultas da forma: dado um gene de uma delas, quais são os mais relacionados da outra? Ao ter isso implementado, poder-se-ia continuar colocando comparações entre trechos (não necessariamente genes), ou entre conjuntos consecutivos de genes.
Checkpoint: a comparação mais simples mencionada acima.
O genoma da bactéria Xylella fastidiosa foi todo anotado usando-se a ferramenta glimmer para encontrar genes. Contudo, há uma outra ferramenta para o mesmo fim chamada GeneMark. Neste projeto o aluno ou grupo deverá refazer a predição de genes da bactéria usando GeneMark e comparar os resultados obtidos com os da anotação oficial. O programa GeneMark não está disponível localmente, mas pode ser acessado via WEB. Por isso os alunos responsáveis por esta tarefa terão que escrever um pequeno programa cliente Web, que consultará repetidamente esta página e colherá os resultados.
A comparação dos resultados também coloca alguns desafios. A maneira mais direta de comparar os resultados seria ter a lista dos dois conjuntos de genes preditos, e um relacionamento entre eles de modo que se possa responder às perguntas: quais genes oficiais não são genes GeneMark? quais genes GeneMark não são genes oficiais? Para os genes que são oficiais e GeneMark, seus tamanhos concordam? Sobra no 5'? Sobra no 3'? Um gene oficial pode corresponder a vários GeneMark e vice-versa?
Checkpoint: determinação de todos os genes GeneMark.
Vias metabólicas indicam o processamento de substâncias dentro das células pela ação de enzimas. Um site interessante que contém diversas vias metabólicas presentes em uma grande variedade de seres vivos é o KEGG (Kyoto Encyclopedia of Genes and Genomes). Neste projeto a tarefa é de fazer um programa que analisa vias metabólicas e diz que substratos podem ser obtidos em dadas situações. Este programa receberá como entrada:
Os diagramas serão dados por figuras do KEGG disponíveis pela rede. Será necessário transformar estas figuras em algum tipo de formato textual, a partir do qual o programa gerará seus resultados. Para o checkpoint, uma boa especificação do formato textual para as vias metabólicas, e alguns exemplos de vias transformadas neste formato são requeridos.
Os melhores projetos serão considerados para publicação de um relatório técnico, possivelmente seguido de submissão a veículo de divulgação (congresso ou revista) nacional ou internacional, conforme a qualidade.