Sunday 2 July 2017

Obo Fundição Bforex


Perspectiva Nature Biotechnology 25. 1251 - 1255 (2007) Publicado on-line: 7 Novembro 2007 doi: 10.1038nbt1346 O OBO Foundry: evolução coordenada de ontologias para apoiar a integração de dados biomédicos Barry Smith 1. Michael Ashburner 2. Cornelius Rosse 3. Jonathan Bard 4. William Bug 5. Werner Ceusters 6. Louis J Goldberg 7. Karen Eilbeck 8. Amélia Irlanda 9. Christopher J Mungall 10. O Consórcio OBI 11. Neocles Leontis 12. Philippe Rocca-Serra 9. Alan Ruttenberg 13. Susanna-Assunta Sansone 9 O valor de qualquer tipo de dados é muito melhor quando existe em uma forma que permite que ele seja integrado com outros dados. Uma abordagem para a integração é através da anotação de múltiplos corpos de dados usando vocabulários comuns controlados ou ontologias. Infelizmente, o próprio sucesso dessa abordagem levou a uma proliferação de ontologias, o que cria obstáculos à integração. O consórcio Ontologias Biomédicas Abertas (OBO) está buscando uma estratégia para superar esse problema. As ontologias OBO existentes, incluindo a ontologia genética, estão sendo submetidas a uma reforma coordenada, e novas ontologias estão sendo criadas com base em um conjunto de princípios compartilhados que regem o desenvolvimento da ontologia. O resultado é uma família em expansão de ontologias projetadas para serem interoperáveis ​​e logicamente bem formadas e incorporar representações precisas da realidade biológica. Descrevemos esta iniciativa de OBO Foundry e fornecemos diretrizes para aqueles que desejam se envolver. Introdução Na busca pelo que é biologicamente e clinicamente significativo nos enxames de dados gerados pelas tecnologias de alto rendimento de hoje, uma estratégia comum envolve a criação e análise de anotações ligando dados primários a expressões em vocabulários estruturados e controlados, tornando os dados Disponíveis para pesquisa e processamento algorítmico 1. O empreendimento mais bem-sucedido, medido tanto pelo número de usuários quanto pelo alcance entre espécies e granularidades, é a Ontologia de Gênios (GO) 2. Existem mais de 11 milhões de anotações relacionando os produtos gênicos descritos no UniProt, Ensembl e outras bases de dados para termos no GO 3. dos quais meio milhão foram verificados manualmente por curadores especialistas em diferentes comunidades de organismos-modelo com base na análise dos resultados experimentais relatados em 52.000 artigos de revistas científicas (ebi. ac. ukGOA). Os dados relativos a cerca de 180.000 genes foram anotados manualmente desta forma, um esforço agora sendo refinado e sistematizado dentro do Projeto de Genoma de Referência (US National Institutes of Health 2P41HG002273-07), que irá fornecer abrangente GO anotações para Tanto o genoma humano como um conjunto representativo de genomas de organismos-modelo em apoio à investigação sobre os sistemas moleculares primários que afectam a saúde humana. Do mapeamento retrospectivo para a padronização prospectiva O domínio da biologia molecular é marcado pela disponibilidade de grandes quantidades de dados bem definidos que podem ser usados ​​sem restrições como entradas para o processamento algorítmico. No domínio clínico, em contraste, apenas quantidades limitadas de dados estão disponíveis para fins de investigação, e estes ainda consistem esmagadoramente de texto em linguagem natural. Mesmo quando se dispõem de dados clínicos mais sistemáticos, a utilização de esquemas de codificação locais significa que estes dados não acumulam de formas úteis à investigação. 4. Uma abordagem para resolver este problema é o Sistema Unificado de Língua Médica (UMLS) 5. um compêndio de alguns 100 vocabulários de origem combinados através de um processo de mapeamento retrospectivo baseado na identificação de relações de sinonímia entre os termos constituintes. O UMLS produziu resultados muito úteis para aplicações como indexação e recuperação de documentos. Mas porque os vocabulários separados não têm nenhuma arquitetura comum 6, 7. Os mapeamentos UMLS não combinam seus termos juntos em um único sistema 8. Cada vez mais, a necessidade é reconhecida por estratégias de padronização prospectiva destinadas a promover a melhoria progressiva e o alinhamento recíproco dos quadros empregados para a gestão, descrição e publicação de dados biomédicos. Dois produtos conspícuos desta tendência são os Estados Unidos National Cancer Institutes Cancer Biomedical Informática Grid (caBIG) projeto 9 e HL7s Reference Information Model (RIM) (hl7.org). CaBIG procura integrar todos os dados de pesquisa de câncer em uma infra-estrutura cibernética comum, padronizando as formas como esses dados são adquiridos, formatados, processados ​​e armazenados. O HL7 RIM, da mesma forma, oferece um padrão para o intercâmbio, gestão e integração de todas as informações relevantes para a saúde, a partir de genómica clínica para facturação hospitalar. No entanto, como caBIG e HL7 se concentram na questão meta-nível de como dados e informações devem ser representados em sistemas de computador e de mensagens, pode-se argumentar que eles não fazem justiça à questão de nível de objeto de como melhor representar a Proteínas, organismos, doenças ou interações medicamentosas que são de interesse primário na pesquisa biomédica 7, 10. Um experimento colaborativo no desenvolvimento de ontologia Em 2001, Ashburner e Lewis iniciaram uma estratégia para abordar esta questão de nível de objeto criando OBO, um corpo de guarda-chuva para desenvolvedores de ontologias de ciências da vida. OBO aplica os princípios-chave subjacentes ao sucesso do GO, nomeadamente, que as ontologias sejam abertas, ortogonais, instanciadas numa sintaxe bem especificada e concebidas para partilhar um espaço comum de identificadores 11. As ontologias devem ser abertas no sentido de que elas e as Os corpos de dados descritos em seus termos devem estar disponíveis para uso sem qualquer restrição ou licença e, portanto, aplicáveis ​​a novos propósitos sem restrições. Eles também são receptivos à modificação como resultado do debate da comunidade. Eles devem ser ortogógenos para garantir a aditividade das anotações e trazer os benefícios do desenvolvimento modular. Eles devem ser sintaticamente em boas condições para suportar processamento algorítmico. E eles devem empregar um sistema comum de identificadores para permitir a compatibilidade com versões anteriores com as anotações legadas à medida que as ontologias evoluem. OBO agora compreende mais de 60 ontologias, e seu papel como um recurso de informação de ontologia é apoiado pelo NIH Roadmap Centro Nacional de Ontologia Biomédica (NCBO) através do seu BioPortal 12. Ao mesmo tempo, os desenvolvedores de um subconjunto de OBO ontologias têm iniciado o OBO Foundry, uma experiência colaborativa baseada na aceitação voluntária por seus participantes de um conjunto evolutivo de princípios (disponíveis em obofoundry. org) que estendem os do OBO original, exigindo, além disso, que as ontologias (i) sejam desenvolvidas em um esforço colaborativo, (Ii) usar relações comuns que são definidas sem ambiguidade, (iii) fornecer procedimentos para feedback do usuário e para identificar versões sucessivas e (iv) ter um objeto claramente delimitado (de modo que uma ontologia dedicada aos componentes celulares, por exemplo, não deve Incluem termos como banco de dados ou inteiro). Uma representação gráfica da cobertura das ontologias iniciais da Foundry é fornecida na Tabela 1. Progresso até agora Desde que a Fundição OBO foi estabelecida, ontologias como o GO e o Modelo Fundacional de Anatomia (FMA) 13 foram reformadas e novas ontologias criadas com base em seus princípios 14, 15, 16. Talvez mais importante ainda, as ontologias têm Foi posto para descansar. Antes da Fundição OBO existiam pelo menos quatro ontologias de tipo celular: uma de Bard, Rhee e Ashburner 17. outra de Kelso et al. 18. Um terceiro implícito dentro do GO e o quarto uma sub-terapia dentro da FMA. Os três primeiros formam agora uma única ontologia de célula-tipo (CL) 19. que é ela própria sendo integrada com as representações de tipo celular contidas dentro da FMA. A iniciativa Foundry também serve para alinhar os esforços de desenvolvimento da ontologia realizados por comunidades separadas, por exemplo, na pesquisa sobre diferentes organismos modelo. O potencial dessa pesquisa para produzir resultados valiosos para a compreensão da doença humana depende da nossa capacidade de fazer comparações confiáveis ​​entre espécies. Como muitos dados do modelo-organismo estão localizados em estruturas anatômicas, deduzir inferências com base nessas comparações foi dificultada pela falta de coordenação no desenvolvimento da ontologia de anatomia entre diferentes comunidades. Algumas ontologias representam estrutura, outras representam função, outras representam estágios de desenvolvimento, e algumas se baseiam em combinações destas, de forma a vedar oportunidades para o raciocínio automático. A Fundação criou um roteiro para a resolução incremental deste problema através do início da Ontologia Comum de Referência em Anatomia (CARO) 14. que está fornecendo diretrizes tanto para comunidades de organismos-modelo com ontologias de anatomia legadas que desejam iniciar reformas na direção de Compatibilidade e para comunidades que desejam criar novas ontologias a partir do zero. A CARO baseia-se nos tipos de FMA de nível superior e serve como modelo para a criação das ontologias de anatomia de Peixes Multi-Espécies, Ixodidae e Argasidae (carrapato), mosquito e Xenopus e também como base para as reformas da Drosophila E ontologias da anatomia do peixe-zebra 19. A Ontologia para Investigações Biomédicas (OBI) aborda a necessidade de vocabulários controlados para apoiar a integração de dados experimentais, uma necessidade originalmente identificada no domínio transcriptômica pela Microarray Gene Expressão Dados Sociedade (MGED), que desenvolveu o MGED Ontologia 20 como um recurso de anotação Para dados de microarray. Em resposta ao reconhecimento de necessidades convergentes em áreas como a caracterização de proteínas e metabólitos, esse esforço foi ampliado para se tornar o que inicialmente era conhecido como FuGO (Ontologia de Investigação de Genômica Funcional) 21. O FuGO foi ampliado em 2006 para incluir pesquisa clínica e epidemiológica, Biomedical imaging e uma variedade de outros domínios de experimentação para se tornar o que é hoje OBI, uma ontologia projetada para servir a representação coordenada de projetos, protocolos, instrumentação, materiais, processos, dados e tipos de análise em todas as áreas de investigação biológica e biomédica. Vinte e cinco grupos estão agora envolvidos na construção de OBI (obi. sfcommunity), ea disciplina Foundry provou ser essencial para o seu desenvolvimento distribuído. Ao contrário da maioria das ontologias OBO, que usam o formato de arquivo OBO e o software associado OBO-Edit favorecido por organismos modelo e outras comunidades biologas, o OBI usa a linguagem de Ontologia da Web OWL-DL. A necessidade de tornar interoperáveis ​​as ontologias OWL e OBO tem desencadeado a criação de ferramentas bidirecionais de conversão OBOx02013OWL 22 que integram dados anotados em termos do GO e de outras ontologias OBO com os corpos de dados entrando no âmbito da Web Semântica 23 uma iniciativa influente Para explorar as ontologias OWL para codificar o conhecimento em sistemas informáticos distribuídos 24. Modelos de boas práticas Cada ontologia de Foundry forma uma estrutura teórica em grafos, com termos ligados por arestas que representam relações como isa ou partof em afirmações tais como a serotonina é uma amina biogênica ou citocinese por parte da proliferação celular. Como as relações em ontologias OBO foram inicialmente usadas de maneira inconsistente, a Ontologia de Relação OBO (RO) 26 foi desenvolvida para fornecer diretrizes para construtores de ontologia na formulação consistente de afirmações relacionais. Essas diretrizes já estão se mostrando úteis, por exemplo, na representação da mudança anatômica 27 e na vinculação de coleções de imagens diversas para filogenética datasets [28]. Outras áreas em que a Fundição está fornecendo diretrizes incluem convenções de nomeação 29 e representações de percurso 30. O modelo de boa prática na formulação de definições é a FMA 13. uma representação de tipos de entidades anatômicas construídas em torno de duas hierarquias de estrutura central de relações isa e partof . A FMA impõe uma regra segundo a qual todas as definições tomam a forma gênero-espécie: uma A def. A B que Cs onde B é o pai de A, e C são a diferenciação marcando para fora essa subfamília de Bs que são também As. Por exemplo, def. Uma estrutura anatômica que tem como limite a superfície externa de uma membrana plasmática de membrana plasmática conectada ao máximo def. Um componente celular que tem como suas partes uma bicamada de fosfolípidos máxima em que instâncias de dois ou mais tipos de proteína são incorporadas. Definições de ancoragem na hierarquia isa desta forma diminuem o papel da opinião na determinação de onde os termos devem ser colocados na hierarquia, promovendo assim consistência dentro e entre ontologias e ajudando a prevenir erros comuns 6, 7, 26. Para maximizar a coordenação entre ontologias, os termos compostos devem ser construídos, tanto quanto possível, a partir de termos constituintes extraídos de ontologias Foundry ligadas usando expressões relacionais da RO 31. Esta metodologia de produtos cruzados está sendo aplicada, em um dos projetos biológicos dirigindo A NCBO, para a anotação de Drosophila. Peixe-zebra e alelos humanos para os genes implicados na doença 12, 32. Os curadores especializados associam estes alelos com descrições de fenótipo formuladas usando termos extraídos de mais de uma OBO Foundry ontologyx02014 por exemplo, compondo o termo de Ontologia da Qualidade Fenotípica (PATO) aumentou a concentração com o termo termo FMA E o termo de glicose ChEBI para representar fenotipos aumentados de glucose no sangue. Tal criação de termos através de composição explícita evita os gargalos criados onde, como por exemplo na Ontologia de Fenotipo de Mamífero, cada novo termo deve ser aprovado para inclusão na ontologia antes de poder ser usado em anotações. Mas a abordagem só funcionará se os termos resultantes forem inequívocos, e aqui a Fundição ajuda a fornecer o rigor necessário. O princípio da ortogonalidade ajuda a reduzir a necessidade de decisões arbitrárias entre termos aparentemente equivalentes, tirados de diferentes ontologias, a ontologia de qualidade fenotípica de PATO fornece modelos para formação de termo e o RO fornece cola formalmente coerente para combinação 33. O escopo atual da iniciativa OBO Foundry está resumido na Tabela 2. As ontologias de fundição são criadas e mantidas por biólogos com um profundo conhecimento da ciência subjacente. Onde os especialistas em domínio controlam em conjunto ontologia, dados e anotações (como no caso da colaboração GOUniprot), os três podem ser curados em conjunto de uma maneira que fornece uma verificação de realidade em cada etapa do processo 34. Como resultados de experimentos são Descrito em anotações, isso leva a extensões ou correções da ontologia, que por sua vez conduzem a uma melhor anotação 35. Os resultados do trabalho do Foundrys podem então ser aplicados por grupos externos como benchmarksx02014 por exemplo, para ajudar a identificar genes mutados em freqüências significativas em humanos Cancros 36 ou para identificar componentes celulares envolvidos no processamento de antigénios 37 ou, em geral, para refinar outros resultados ruidosos de mineração de texto e de dados 38, 39, 40, 41. A Fundição OBO aplicou Neurofisiologia. Uma demonstração da utilidade da metodologia Foundry é fornecida pelo trabalho em andamento para criar a base de dados NeuronDB dentro do projeto Senselab (senselab. med. yale. edu). NeuronDB abrange três tipos de propriedades neuronais: condutâncias de tensão-gated, neurotransmissores e receptores de neurotransmissores. Uma representação inicial de neurotransmissores definiu uma hierarquia isa com classes como receptores de neurotransmissores e subclasses como o receptor GABA. Nesta ontologia inicial, os receptores não foram definidos e, estritamente falando, não se saberia, por exemplo, se um receptor era uma proteína ou um complexo proteico. A Fundação forneceu um conjunto de princípios e pelo menos uma tarefa que pode ser avaliada ao fazer tais escolhas: a saber, o escopo de cada ontologia deveria estar claramente delimitado e (por ortogonalidade) nenhum termo deveria aparecer em mais de uma ontologia. Ao analisar as ontologias existentes, descobrimos que a ontologia GO Molecular Function (GO MF) já possuía classes como a atividade do receptor (GO: 0004872) e uma série de subclasses que descrevem as atividades do receptor que foram referidas no NeuronDB. Foram analisadas cem trinta classes de receptores resultantes. Onde eles existiram, reutilizamos classes de MF onde não, criamos subclasses de classes de MF existentes e apresentamos os resultados para GO para futura inclusão. Arranjar NeuronDB para interoperar de forma transparente com GO forneceu o benefício adicional que agora podemos aproveitar as anotações GO para encontrar as proteínas que correspondem às classes de receptor, pesquisando anotações para os termos MF. Este é um modelo de como pequenos construtores de ontologia podem contribuir construtivamente para o crescimento de recursos compartilhados enquanto simultaneamente beneficiam usuários de suas próprias ontologias. Neuroanatomia. Em apoio à pesquisa sobre doenças neurodegenerativas e neurológicas na Rede de Pesquisa de Informática Biomédica (BIRN) 42. A Força-Tarefa de Ontologia BIRN está aplicando os princípios da Fundição para representar formalmente vários domínios grandes, incluindo (i) neuroanatomia 43. onde as anotações devem capturar não só Os sistemas estruturais de parto e conexão topológica, mas também as parcelas citocárdicas, como as regiões CA1, CA2 e CA3 do hipocampo, (ii) sistemas funcionais, como os circuitos ganglionares basais para planejamento motor e memória motora e (iii) neuroquímica (para Exemplo, de núcleos de monoamina do tronco encefálico). Os membros do BIRN Ontology Task Force vêem a Foundry como uma estrutura dentro da qual estes eixos distintos podem ser combinados algorítmicamente, e eles estão incorporando os resultados no projeto de atos de neuroimagem BIRNs e usando-os para integrar dados de expressão de microarrays espacialmente mapeados com resultados de imagem de mouse . As Informações Mínimas para Investigações Biológicas e Biomédicas (MIBBI). Esta iniciativa representa o primeiro esforço de novos padrões que leva OBO e OBO Foundry como seu modelo a seguir. 44. O MIBBI fornece recursos de informação para promover a consolidação de muitas listas de verificação prescritivas que especificam os principais itens de metadados a serem incluídos ao reportar resultados em uma variedade de experimentos Domínios 45. A proliferação dessas listas mínimas de informações tornou cada vez mais difícil obter uma visão geral das especificações existentes, duplicando desnecessariamente os esforços e criando problemas quando terceiros tentam utilizar as informações descritas. O MIBBI Portal opera de forma análoga ao OBO e ao NBCO Bioportal como um recurso de informação aberto para todas as iniciativas que abordam estes problemas. A MIBBI Foundry promove o desenvolvimento colaborativo ea integração de listas de verificação em módulos ortogonais 46. Como se juntar Como OBO, a OBO Foundry é uma comunidade aberta. Qualquer indivíduo ou grupo que trabalhe no domínio da biomedicina que deseje aderir à iniciativa é encorajado a fazê-lo, e todos os fóruns de discussão (listados em obofoundry. org) estão abertos a todas as partes interessadas sem restrições. O primeiro passo recomendado é juntar uma ou mais listas de discussão em áreas salientes como uma maneira de se familiarizar com a metodologia de colaboração Foundrys e identificar membros com experiência sobreposta. Aqueles com novos recursos de ontologia são convidados a submetê-los para consideração informal por membros existentes, isto será seguido por um período em que o cumprimento dos princípios Foundry é abordado, especialmente em relação a potenciais conflitos em áreas de sobreposição. A participação na iniciativa Foundry decorre de um compromisso com a implementação incremental desses princípios à medida que evoluem ao longo do tempo, com os coordenadores Foundry (atualmente Ashburner, Lewis, Mungall e Smith) servindo como análogos de editores de jornais, pelo que a divisão do trabalho que resulta Da ortogonalidade ajuda a garantir que as decisões de desenvolvimento são feitas pelos autores de ontologias únicas. Juntando-se à iniciativa, os autores de uma ontologia se comprometem a trabalhar com outros membros para garantir que, para qualquer domínio em particular, haja convergência em uma única ontologia. A crítica também é bem-vinda: a Fundição é uma tentativa de aplicar o método científico à tarefa de desenvolvimento da ontologia e, portanto, aceita que nenhum recurso jamais existirá de uma forma que não possa ser melhorada. Nosso objetivo de longo prazo é que os dados gerados através da pesquisa biomédica devem formar um conjunto único, consistente, cumulativamente expansível e algoritmicamente tratável. Os nossos esforços para concretizar este objectivo, que ainda estão em fase de provas, reflectem uma tentativa de caminhar entre a flexibilidade indispensável ao avanço científico ea instituição de princípios indispensáveis ​​para uma coordenação bem sucedida. Agradecimentos A Fundação está recebendo financiamento ad hoc sob o consórcio BISC Gen e Ontology Consortium, MGED, NCBO e RNA Ontologia subvenções. Agradecemos a todas estas fontes, bem como ao Projecto ACGT da União Europeia e às Fundações Humboldt e Volkswagen. Referências Yue, L. amp Reisdorf, W. C. Análise de caminho e ontologia: abordagens emergentes que conectam dados de transcriptoma e parâmetros clínicos. Curr. Mol. Med. 5. 11821121 (2005). Artigo PubMed ChemPort Gene Ontology Consortium. O projeto Gene Ontology (GO) em 2006. Nucleic Acids Res. 34 (problema da base de dados), D3228211D326 (2006). Artigo Camon, E. et al. O Projeto Gene Ontology Annotation (GOA). Genome Res. 13. 6628211672 (2003). Artigo PubMed ISI ChemPort Kohane, I. S. Et ai. Criação de sistemas nacionais de registros médicos eletrônicos através da World Wide Web. Geléia. Med. Informar. Assoc. 3. 1918211207 (1996). PubMed ChemPort Bodenreider, O. O Sistema Unificado de Linguagem Médica (UMLS): integrando a terminologia biomédica. Nucleic Acids Res. 32 (problema da base de dados), D2678211D270 (2004). Artigo: PubMed ISI ChemPort Ceusters, W. Smith, B. Kumar, A. amp Dhaen, C. Erros em ontologias médicas: de onde eles vêm e como eles podem ser detectados Stud. Saúde Technol. Informar. 102. 1458211164 (2004). PubMed Ceusters, W. Smith, B. amp. Goldberg, L. Uma análise terminológica e ontológica do NCI Thesaurus. Métodos Inf. Med. 44. 4988211507 (2005). PubMed ChemPort Campbell, K. E. Oliver, D. E. Amp Shortliffe, E. H. O Sistema Unificado de Linguagem Médica. Rumo a uma abordagem colaborativa para a resolução de problemas terminológicos. Geléia. Med. Informar. Assoc. 5. 12821116 (1998). PubMed ChemPort Buetow, K. H. Cyberinfrastructure: potencializando uma terceira via na pesquisa biomédica. Science 308. 8218211824 (2005). Artigo PubMed ChemPort Smith, B. amp. Ceusters, W. HL7 RIM: um padrão incoerente. Viga. Saúde Technol. Informar. 124. 1338211138 (2006). PubMed, Ashburner, M. Mungall, C. J. amp. Lewis, S. E. Ontologias para biólogos: um modelo comunitário para a anotação de dados genômicos. Cold Spring Harb. Symp. Quant. Biol. 68. 2278211236 (2003). Artigo PubMed ChemPort Rubin, D. L. Et al. Centro Nacional de Ontologia Biomédica: avançar a biomedicina através da organização estruturada do conhecimento científico. OMICS 10. 1858211198 (2006). Artigo PubMed ChemPort Rosse, C. amp. Mejino, J. L.F. O modelo fundacional da ontologia da anatomia. Em Anatomy Ontologies for Bioinformatics (eds. Burger, A. et al.) (Springer, Nova Iorque, na imprensa). Haendel, M. et ai. CARO: a Ontologia de Referência de Anatomia Comum. Em Anatomy Ontologies for Bioinformatics (eds. Burger, A. et al.) (Springer, Nova Iorque, na imprensa). Leontis, N. B. Et al. O RNA Ontology Consortium: um convite aberto para a comunidade RNA. RNA 12. 5338211541 (2006). Artigo: PubMed ChemPort Natale, D. A. Et al. Estrutura para uma ontologia de proteínas. BMC Bioinformatics on-line (na imprensa). Bard, J. Rhee, S. Y. Amp Ashburner, M. Uma ontologia para tipos de células. Genoma Biol. On-line 6. R21 (2005). Artigo Kelso, J. et al. EVOC: um vocabulário controlado para unificar dados de expressão gênica. Genome Res. 13. 122282111230 (2003). Artigo PubMed ChemPort Mabee, P. M. Et ai. Ontologias fenotípicas: a ponte entre genômica e evolução. Tendências Ecol. Evol. 22. 3458211350 (2007). Artigo PubMed Whetzel, P. L. Et ai. Ontologia do MGED: um recurso para a descrição baseada em semântica de experimentos de microarrays. Bioinformatics 22. 8668211873 (2006). Artigo PubMed ISI ChemPort Whetzel, P. L. Et ai. Desenvolvimento de FuGO: uma ontologia para investigações de genômica funcional. OMICS 10. 1998211204 (2006). Artigo PubMed ISI ChemPort Golbreic, C. et al. OBO e OWL: alavancando tecnologias web semântica para as ciências da vida. Em Proceedings 6th International Semantic Web Conference (ISWC 2007), (Springer, na imprensa). Brinkley, J. F. Detwiler, L. T. Gennari, J. H. Rosse, C. amp Suciu, D. Uma estrutura para o uso de ontologias de referência como base para a web semântica. Proc. Simpósio de Quedas da AMIA. 2006. 958211100. Lacy, L. W. Coruja: representando informações usando a Web Ontology Language (Trafford Publishing, Victoria, BC, Canadá, 2005). Smith, B. Koumlhler, J. amp Kumar, A. Sobre a aplicação de princípios formais aos dados de ciências da vida: um estudo de caso na Ontologia do gene. Workshop de Integração de Dados na Ciências da Vida (DILS) 2004. 79821194. Smith, B. et al. Relações em ontologias biomédicas. Genome Biol. Online 6. R46 (2005). Artigo Bittner, T. amp Goldberg, L. J. Localização espacial e sua relevância para inferências terminológicas em bio-ontologias. BMC Bioinformatics 23. 167482111682 (2007). ChemPort Ramiacuterez, M. J. et al. Ligação de imagens digitais a matrizes de dados filogenéticas utilizando uma ontologia morfológica. Sist. Biol. 56. 2838211294 (2007). Artigo PubMed Schober, D. et al. Rumo a convenções de nomeação para uso em vocabulário controlado e engenharia de ontologia. Workshop de Bio-Ontologias. ISMBECCB, Viena, 20 de julho de 2007. 87821190. Ruttenberg, A. Rees, J. amp Zucker, J. O que o BioPAX se comunica e como estender o OWL para ajudá-lo. OWL: Experiences and Directions Workshop Series ltowl-workshop. man. ac. ukacceptedLongsubmission26.pdf gt (2006). Hunter, L. amp Bada. M. Enriquecimento de ontologias OBO. J. Biomed. Informar. 40. 3008211315 (2007). Artigo PubMed Hill, D. P. Blake, J. A. Richardson, J. E. amp Ringwald, M. Extensão e integração da Ontologia do gene (GO): combinando vocabulários GO com vocabulários externos. Genome Res. 12. 198282111991 (2002). Artigo PubMed ISI ChemPort Mungall, C. J. Obol: integração de linguagem e significado em bio-ontologias. Comp. Funct. Genomics 5. 5098211520 (2004). Artigo ChemPort Camon, E. et al. Base de dados de anotação de Ontologia Gene (GOA): compartilhamento de conhecimento em Uniprot com Ontologia de Gene. Nucleic Acids Res. 32 (problema de banco de dados), D2628211D266 (2004). Artigo PubMed ISI ChemPort Blake, J. Hill, D. P. Amp. Smith, B. Gene anotações Ontologia: o que eles significam e de onde eles vêm. Workshop de Bio-Ontologias. ISMBECCB, Viena, 20 de julho de 2007. 79821182. Sjoblom, T. et al. As sequências de codificação de consenso de cancros de mama e colorrectal humanos. Science 314. 2688211274 (2006). Artigo PubMed ISI ChemPort Lee, J. A. Et ai. Componentes da via de processamento e apresentação do antigénio revelada por análise de microarray de expressão genética após estimulação do receptor de antigénio de células B (BCR). BMC Bioinformatics online 7. 237 (2006). Artigo Rebholz-Schuhmann, D. Kirsch, H. amp Couto, F. Fatos de text8212is text mining pronto para entregar PLoS Biol. Online 3. e65 (2005). Artigo Witte, R. Kappler, T. amp Baker, C. J.O. Projeto de ontologia para mineração de texto biomédico. Na Web Semântica: Revolucionando a Descoberta de Conhecimento nas Ciências da Vida (eds. Baker C. J.O. amp Cheung, K.-H.) 2818211313 (Springer, Nova York, 2007). Zhang, S. amp. Bodenreider, O. Alinhando múltiplas ontologias anatômicas através de uma referência. Workshop Internacional sobre Correspondência Ontológica (OM 2006) 1938211197 (2006). Luo, F. et ai. Organização modular de redes de interação protéica. Bioinformatics 23. 2078211214 (2007). Artigo PubMed ISI ChemPort Martone, M. E. Gupta, A. amp Ellisman, M. H. E-neurociência: desafios e triunfos na integração de dados distribuídos de moléculas para cérebros. Nat. Neurosci. 7. 4678211472 (2004). Artigo PubMed ISI ChemPort Fong, L. et al. Um ambiente de conhecimento orientado a ontologia para neuroanatomia subcelular. OWL Experiences and Directions, 3º Workshop Internacional. Innsbruck, Áustria, junho de 682117, 2007 (na imprensa). Taylor, C. F. Et ai. Promover requisitos mínimos de informação coerentes para investigações biológicas e biomédicas: o projecto MIBBI. Nat. Biotechnol. (Na imprensa). Brazma, A. et ai. Informações mínimas sobre um experimento de microarranjo (MIAME) 8212 para padronizar os dados de microarrays. Nat. Genet. 29. 3658211371 (2001). Artigo PubMed ISI ChemPort Sansone, S. A. et al. Uma estratégia que aproveite as sinergias: o grupo de trabalho "Estrutura de Relatórios para Investigações Biológicas" (RSBI). OMICS 10. 1648211171 (2006). Artigo: PubMed ISI ChemPort Grenon, P. Smith, B. amp. Goldberg, L. Ontologia biodinâmica: aplicação de BFO no domínio biomédico. On Ontologies in Medicine (ed. Pisanelli, D. M.) 20821138 (IOS, Amsterdam, 2004). Departamento de Filosofia e Centro de Excelência do Estado de Nova York em Bioinformática e Ciências da Vida, University at Buffalo, 701 Ellicott Street, Buffalo, Nova Iorque 14203, EUA. Departamento de Genética, Universidade de Cambridge, Downing Street, Cambridge, CB2 3EH, Reino Unido. Department of Biological Structure, Box 357420, Universidade de Washington, Seattle, Washington 98195, EUA. Departamento de Ciências Biomédicas, Universidade de Edimburgo, 1 George Square, Edimburgo EH8 9JZ, Escócia, Reino Unido. Departamento de Neurobiologia e Anatomia, Faculdade de Medicina da Universidade Drexel, 2900 Queen Lane, Philadelphia, Pennsylvania 19129, EUA. Departamento de Psiquiatria e Centro de Excelência do Estado de Nova York em Bioinformática e Ciências da Vida, Universidade de Buffalo, 701 Ellicott Street, Buffalo, Nova Iorque 14203, EUA. Departamento de Biologia Oral e Centro de Excelência do Estado de Nova York em Bioinformática e Ciências da Vida, Universidade de Buffalo, 701, Rua Ellicott, Buffalo, Nova Iorque 14203, EUA. Instituto Eccles de Genética Humana, Universidade de Utah, 15 Norte 2030 East, Salt Lake City, Utah 84112, EUA. Instituto Europeu de Bioinformática, Wellcome Trust Genome Campus, Hinxton, Cambridge, CB10 1SD, Reino Unido. Divisão de Ciências da Vida, Laboratório Nacional Lawrence Berkeley, 1 Cyclotron Road, Berkeley, Califórnia 94720, EUA. Obi. sourceforgecommunityindex. php. Departamento de Química, Bowling Green State University, 212 Laboratório de Ciências Físicas Building, 1001 East Wooster Street, Bowling Green, Ohio 43403, EUA. Science Commons, Co Instituto de Tecnologia de Massachusetts, Laboratório de Informática e Inteligência Artificial, Edifício 32-386D, 32, Rua Vassar, Cambridge, Massachusetts 02139, EUA. Departamento de Patologia, Centro Médico do Sul da Universidade do Texas, Harry Hines Blvd. Dallas, Texas 75390 EUA. Stanford Medical Informatics, Stanford University School of Medicine, 251 Campus Drive, Stanford, Califórnia 94305, EUA. Center for Bioinformatics and Department of Genetics, University of Pennsylvania School of Medicine, 423 Guardian Drive, Philadelphia, Pennsylvania 19104, USA. MORE ARTICLES LIKE THIS These links to content published by Nature Research are automatically generated. Main navigation Extra navigationSurvey-based naming conventions for use in OBO Foundry ontology development Background A wide variety of ontologies relevant to the biological and medical domains are available through the OBO Foundry portal, and their number is growing rapidly. Integration of these ontologies, while requiring considerable effort, is extremely desirable. However, heterogeneities in format and style pose serious obstacles to such integration. In particular, inconsistencies in naming conventions can impair the readability and navigability of ontology class hierarchies, and hinder their alignment and integration. While other sources of diversity are tremendously complex and challenging, agreeing a set of common naming conventions is an achievable goal, particularly if those conventions are based on lessons drawn from pooled practical experience and surveys of community opinion. We summarize a review of existing naming conventions and highlight certain disadvantages with respect to general applicability in the biological domain. We also present the results of a survey carried out to establish which naming conventions are currently employed by OBO Foundry ontologies and to determine what their special requirements regarding the naming of entities might be. Lastly, we propose an initial set of typographic, syntactic and semantic conventions for labelling classes in OBO Foundry ontologies. Conclusion Adherence to common naming conventions is more than just a matter of aesthetics. Such conventions provide guidance to ontology creators, help developers avoid flaws and inaccuracies when editing, and especially when interlinking, ontologies. Common naming conventions will also assist consumers of ontologies to more readily understand what meanings were intended by the authors of ontologies used in annotating bodies of data. Background A wide variety of ontologies, controlled vocabularies, and other terminological artifacts relevant to the biological or medical domains are available through open access portals such as the Ontology Lookup Service (OLS) 1 , and the number of such artifacts is growing rapidly. One of the goals of the Open Biomedical Ontologies (OBO) Foundry initiative 2 is to facilitate integration among these diverse ontologies. However, such integration demands considerable effort and differences in format and style can only add obstacles to the execution of this task 3 . The heterogeneity within the set of existing ontologies derives from the use of diverse ontology engineering methodologies and is manifest in the adoption by different communities of Description Logic, Common Logic, or other formalisms. The spectrum of syntaxes used to express these formalisms, such as the Web Ontology Language (OWL) or the OBO format, and the commitment of individual communities to conceptualist or realism-based philosophical approaches are also contributing factors. Here we focus on issues of nomenclature 4 , and specifically on the naming conventions used for labeling classes in ontologies, which are an additional contributing factor to the problem of heterogeneity. Even in this relatively straightforward area, no conventions have achieved broad acceptance (see survey section below). The lack of naming conventions or their inconsistent usage can impair readability and navigation when viewing ontology class hierarchies. We believe that clear and explicit naming becomes of even greater importance when interlinking ontologies (for example via owl:import. obo dbxref and other referencing and mapping statements 5 , or when ontology engineers need to collaborate with external groups to align their ontologies and to ensure effective maintenance of modularity). While other sources of diversity are tremendously complex and challenging, it is our belief that establishing a set of naming conventions for the OBO Foundry is a tractable goal, particularly if those conventions are based on lessons drawn from pooled practical experience and targeted surveying. There is of course no shortage of initiatives for the development of specifications and standards tackling naming 6 9 . However, where naming conventions have been developed, widespread application has been hampered by several factors, most notably domain specificity, document inaccessibility and format dependency. A comprehensive survey of existing naming convention documents can be found at the dedicated OBO Foundry naming conventions website 10 . Domain specificity One significant obstacle to common adoption is that many of the proposed conventions are domain-specific and not generally extendible to other fields for example, the Human Genome Organization (HUGO) nomenclature 11 is restricted to gene names. Other conventions refer only to entities occurring within programming languages 12 or to the naming of natural language documents 13 . Document inaccessibility A second obstacle relates to poor documentation. A naming convention whose documentation is unclear, or is dispersed in multiple documents or document sections, artificially constrains its own chances of acceptance. This is the case with the BioPAX manual 14 , which is in addition overly tool-centric in that it addresses only Protg-OWL issues. Another deficiency is the commercial or semi-proprietary nature of conventions such as the International Organization for Standardization (ISO) standards 15 . Many of these proposed conventions also impair access through information overload, there being around forty ISO documents addressing naming issues alone. Other naming conventions are described only implicitly and via unintuitive search attributes, or are not available on-line, making access difficult. Format and implementation dependency Sometimes only certain naming issues are tackled by a naming convention usually those most germane to a particular format. The Gene Ontology (GO) Editorial Style Guide 16 for example, is of limited coverage and applicability, as it is embedded in an OBO-format specific document. The ANSIISO Z39.19-2005 Standard 8 is applicable only to terms organized in an is-a hierarchy without relations and therefore lacks proper conventions for representing ontological classes and properties in semantically complex ontologies. In the case of the Ontology Engineering and Patterns Task Force of the Semantic Web Best Practices and Deployment working group 17 , the guidelines are restricted to the OWL format and are dispersed throughout many documents and document sections. To overcome this diversity and fragmentation members of the OBO Foundry and of the Metabolomics Standards Initiative (MSI) ontology working group 18 have set up an infrastructure group that is attempting to: collect, review and compare existing naming conventions distill universally valid conventions that can be implemented in both the OWL and OBO formats, and conceivably also in other formats engage in discussion with other groups concerned with nomenclature standardization in order to establish a forum for coordinated advance create a single common guideline document to serve as a common resource for the OBO Foundry and associated initiatives. In this communication we present the preliminary results of a survey of the naming conventions applied by ontology groups listed under the OBO Foundry, together with an initial set of what we believe are robust conventions for formulation of terms in ontologies and a list of open issues that need to be resolved in the future. To determine the sources of heterogeneity in naming and to initiate a discussion among the ontology groups associated with the OBO Foundry, we carried out a survey. The goal was to allow us to: catalog the naming conventions that these groups currently apply learn about existing sets of documentation for the various naming conventions cataloged assess special requirements regarding the naming of entities in the context of various biological domains discover issues not yet addressed by our proposed conventions to determine future needs. The survey was conducted by contacting the custodians of the 66 OBO ontologies (as of November 2007) either by email or telephone. Each respondent then received a questionnaire that was divided into four parts, covering: 1. Ontology engineering process and level of awareness of the OBO Foundry Current practice in naming entities and documentation thereof Implementation of different name categories Questions on particular naming conventions The full questionnaire, the complete set of answers and the consolidated results are available from the OBO Foundry wiki 10 . For more information on the survey results and list of participants see the Additional file 1. SurveyResults. zip. Naming Conventions Our proposed set of naming conventions, founded on the survey results, is summarized in Table 1. In further discussions, we refer to the entities of which an ontology consists (in some circles these are called classes and relations) as its representational units 19 . A representational unit can be accompanied by one or more synonymous names of different categories. Any type of name that is chosen to be displayed in the hierarchy is called display name (called browser key in Protg). Where the form of that name is controlled by a set of explicit rules we refer to it as a formal name. To ensure that the conventions proposed here are expressed unambiguously we employ the following additional name categories, which we hope will also have general utility: The initial set of OBO Foundry naming conventions 1. Be clear and unambiguous 2.1 Use univocous names and avoid homonyms Names should have the same meaning on every occasion of use and refer to the same types of entities in reality. Homonyms, ambiguous terms that share the same spelling but have many different meanings, are to be avoided as part of editor-preferred names. Use terms with fewest possible amount of homonyms in building names protocol collection instead of protocol set for a plurality of protocols (store the latter as synonym), parameter adjustment instead of parameter setting for the act of setting parameters Increases precision in the interpreted meaning. Faster term recognition 2.2 Avoid conjunctions Words that are used to join other words, such as the logical connectives and and or should be avoided in names as they can introduce ambiguity and may hamper inference by causing excessive branching. The same applies to qualifiers such as in some cases In anatomic structure, system or substance it is not clear whether the adjective anatomic is restricted to structure or extends also to system and substance. In the first case the substances drug and chemical would be classified under this class, otherwise not. Increases precision in the interpreted meaning 2.3 Prefer singular nominal form Use singular names throughout. Where plurals need to be captured, e. g. when one instance of the plural class represents a plurality itself, consistently use explicit plural indicating postfixes as part of the class names, e. g. use aggregate, collective or population consistently, but only as applicable. pair of lungs, population instead of lungs, people collection Increases precision in the interpreted meaning, helps string matching 2.4 Use positive names Avoid use of negations in formulating names. Avoid complements and negative names like non-separation device because logically this will include everything in the universe that is not a separation device. The absence of a characteristic is not a concise differentiating criterion. Do not represent the absence of a characteristic (e. g. wing) as the presence of the non-existence of a characteristic, e. g. wing hasstatus absent. Avoid non-linear model Increases precision in the interpreted meaning editor-preferred name . A formal name used by the ontologys developers and adhering to their guidelines and naming conventions. Editor-preferred names are primarily constructed to aid those building and manipulating an ontology and should therefore be specified as the display name during ontology editing. The editor-preferred name for the Foundational Model of Anatomy (FMA) class FMA:3862 is Anterior interventricular branch of left coronary artery. user-preferred name . An informal name chosen to meet the expectations of an end user community. Usually this would be the name most frequently found in the literature of the relevant domains, which can inter alia serve as an intuitive, queryable attribute for end users searching for data sets in a repository. The user-preferred names from FMA for FMA:3862 is Left anterior descending branch of left coronary artery. short name . A very short name that is useful when displaying large, dense graphs (whose nodes are classes and whose edges are relations). A short name from FMA for FMA:3862 is the acronym LAD. Further types of names can be distinguished, such as lexical variant (including abbreviations and acronyms), phonetic variant and foreign language translation. The one rule that governs all these name categories is that they all must be exact synonyms. Since Protg and OBO Edit do not deal with external lexical formats in an integrated way, we recommend storing lexical variants in the ontology itself to make them immediately accessible e. g. when mapping ontologies and identifying homonyms. The lack of defined name categories in the available representation languages has been recognized by the Ontology Task Force of the W3C Semantic Web Health Care and Life Sciences Interest Group 7 and the lack of clear guidance on which kind of name the representation language idioms rdfs:label (OWL) and term name (OBO) should contain, has contributed significantly to the current heterogeneity in naming between ontologies. Our minimum recommendation is to assign an editor-preferred name, to which all of the naming conventions described in Table 1 should be applied, and one or more user-preferred names, which are less controlled and chosen to match end user expectations and usage frequency. The utility of having separate editor - and user-preferred names is exemplified by the response to question 4.1.2 in our survey by the developers of the Drosophila development ontology where they describe the balance they attempt to strike between making names explicit, keeping them concise and avoiding straying too far from community usage. Discussion Naming conventions for ontology engineering do not necessarily apply to other domains. For example, our recommendation 1.2 Use context independent names (see Table 1 ) will not make sense in the domain of database schemata or object-oriented programming. Terms from ontologies can be used in annotations outside the ontological context, whereas a java class is always situated in a class library hierarchy and embedded in code, providing its full context and therefore its name does not need to be fully explicit. However, general naming conventions such as 1. Be clear and unambiguous and 2. Be univocal can be applied in database schema generation, class naming in object oriented programming, natural language generation, even Wikipedia article naming. Formulation of universally applicable naming conventions in the bio-ontology space is no easy task due to the multidimensional complexity of the area, deriving not least from its intrinsically interdisciplinary character. Therefore, although we have carried out a comprehensive survey of existing naming convention documents in different domains 10 , we have deliberately confined ourselves here to considering the needs of the OBO Foundry community. Exceptions When conventions have been established their application may be non-trivial, not least because of the exceptions which different groups will want to make to given rules. In cases where the conventions cannot be strictly applied, common sense should be used. Here we describe some situations of this sort highlighted by our survey. Positive names (see 2.4 in Table 1 ) The responses to question 4.8.1 showed that most groups already try to avoid negative names and names containing expressions such as without or excluding yet nearly half of the survey respondents still found examples of negative names in their ontologies. It seems it can be difficult to decide when a term is negative e. g. unhealthy, immaterial anatomical entity, nonlinear transformation, inorganic and rotenone-insensitive. The difficulty in defining the criteria for negative indicates that the convention cannot be enforced strictly, but we hold that it is nonetheless a valuable guideline. Further, we recommend that explicit exclusions should not be made within names e. g. as in hydrolase activity, acting on carbon-nitrogen (but not peptide) bonds, in cyclic amides (GO:0016812). Word separator (see 3.3 in Table 1 ) We recommend the use of white space as separator in editor-preferred names. A consequence of the default behaviour of the Protg 3.x Editor is that it encourages the use of the rdf:ID field to capture class names. Since this field cant contain spaces, developers using Protg often use the underscore as a word separator. This can be cured by avoiding use of the rdf:ID field to record editor-preferred names and to use instead the rdfs:label field. Special character formatting and symbols (see 3.5 in Table 1 ) The survey revealed that ontologies dealing with chemicals and using the IUPAC nomenclature need to apply character formatting to their names for purposes of semantic disambiguation. In ChEBI for example the full chemical name is represented with unrestricted character formatting, for example: CHEBI 30666: bis tricarbonyl( 5 - cyclopentadienyl)molybdenum(Mo-Mo). Since character formatting is not supported by most ontology editors and languages, the groups involved often develop specific tools to meet their requirements. For this reason ChEBI and the Systems Biology ontology have developed front ends built on top of relational databases to manage their ontologies. Defined character transformation rules can be used to encode special formatting for example as has been done by the Biological Imaging Methods Ontology, which uses for superscripts and for subscripts. In general these should be avoided. Benefits and applications The application of common naming guidelines brings the following benefits: enhance communication between geographically dispersed developers simplify stand-alone ontology development and help in subsequent administration tasks simplify ontology networking e. g. importing and using classes from external ontologies or imported ontology modules increase the accessibility and exportability of terms, facilitating re-use and reducing redundant development. By increasing the robustness of ontology class names, a standard naming convention will: support the manual and automated integration (i. e. comparison, orthogonality-checking, alignment and mapping) of terminological artifacts facilitate access to ontologies through meta-tools such as the NCBO BioPortal by reducing the diversity with which these tools have to deal, thus reducing the burden on tool and ontology developers alike increase the robustness of context-based text mining for automatic term recognition and text annotation. The proposed set of conventions is currently being applied by the Ontology for Biomedical Investigation (OBI) project 20 and by the Proteomics Standards Initiative (PSI) 21 and MSI ontology working groups. An example that illustrates how syntactic normalization enhances readability and navigability of the OBI ontology class hierarchy can be found on the OBO Foundry wiki 10 . The usefulness of design principles in general and naming conventions in particular increases considerably when they are supported by ontology editing tools 22 . In particular, tools should check for compliance to such conventions and provide the functionality not only to enforce, but also to exploit, convention-based naming patterns. We are pleased to observe that implementations of such functionality have already begun to appear. For example, in the OBO Edit 2 tool 23 redundant class names are indicated and users can also define their own verification checks by specifying filters and error messages that will be displayed for each name that matches (or fails to match) the conventions defined. This verification system can serve as a framework upon which to build robust checks for conformity to naming conventions, either as a built-in OBO Edit module or as externally provided plug-ins (John Day-Richter personal communication). Also tools such as OBOL that use the lexical information in class names are already being applied to find inconsistencies within and between labels, and to aid ontology integration and ontology engineering in general through the methodology of cross-products 24 . Some aspects of what we propose here mirror features of so-called Constrained Natural Languages, CNL 25 . In particular, defined restrictions on the use of grammar and terminology can be found in CNL, and exploiting developments in this field could prove fruitful. However we must be careful not to be seen to be trying to impose too great a burden on ontology editors by attempting to require them to learn another full representation language. It is important to stress that having conventions for default names (using the editor-preferred name as display name) does not place restrictions on the use of less formal or colloquial names, which can and should still be captured as synonyms. Impact on GO As the longest established ontology in the OBO Foundry, GO has already invested effort in establishing its own naming conventions, having formerly suffered under many of the common pitfalls in naming described in this paper, for example, the use of catch-all terms such as unlocalized and molecular function unknown 26 . Some of the recommendations outlined here have been inherited from the GO community, which in turn will move to include this whole set of naming conventions into the GO style guide. The impact on GO will certainly be positive, especially where it is used in combination with other OBO Foundry ontologies. For example, GO is considering changing to the context-independent name cell nucleus (as already used in FMA), instead of nucleus to distinguish it from atomic nuclei in ChEBI. The avoidance of conjunctions in term names will decompose terms like actin polymerization andor depolymerization, and the restriction to positive names will prevent or lead to the refactoring of terms like non-eye photoreceptor cell development in GO. Open Issues The surveying process reported in this paper has been informative, and has provided evidence to support the various conventions presented herein. Furthermore, several responders explicitly stated that the questionnaire made them aware of issues which they had not thought of previously and in some cases went on to indicate other areas where they considered that conventions would be helpful, such as: A reference terminology that names the various kinds of representational units (e. g. illustrating the differences between type, class, term, concept and universal), thereby supporting unambiguous discussion of particular representational units 19 . Conventions for other representational units, such as the names of relations, instances and identifiers. For example, OBI uses the identifier convention group prefix underscore unique number (e. g. OBI0000016) whereas BFO simply uses a meaningful string (e. g. IndependentContinuant). In addition, relations do not have numeric identifiers, which should probably be changed as these representational units, like classes, undergo changes and updates. A formalism is needed for naming and marking administrative helper classes and metadata bins within ontologies. Until recently, non-ontological classes in OBI, such as unclassified (OBI200067), tobefixed (OBI334), ChEBIobjects (OBI336), PATOquality (OBI302), collectedrelations (OBI400132) could be found side-by-side with domain-level classes. These are now marked as helper classes by adding an underscore as prefix. Branch, module, file and namespace naming conventions should be investigated. This is also indicated by the recurring discussions on ontology naming conflicts on the OBO discussion mailing list. It needs to be investigated in how far certain conventions are dependent on the degree of formality of the representational artefact at hand. Conventions regulating name compositions 24 may only be applicable to semantically granular ontologies using relations, but not to taxonomies. Besides our universal conventions, specialized ones for certain ontological classes of high interest, usage and abundance should be collected and evaluated. Such classes referring to processes, instruments or organisations are also called Named Entities in the field of text mining. Although work on some of the above issues has already started, these open issues are of importance and will be tackled in a next round of guideline development by the OBO Foundry coordinators, in collaboration with the OBO Foundry ontology developers. Conclusion The effective and efficient description of scientific information is the ultimate goal of this work. Mature, consensus-based conventions to guide ontology development are a crucial requisite for the achievement of this goal. We have presented an initial set of naming conventions primarily (but certainly not exclusively) for use in OBO Foundry ontologies. The justifications for the conventions presented were founded on answers from ontology editor practitioners gathered by means of a survey carried out within the OBO Foundry community. The resulting set of conventions should be viewed as a primer, to be expanded and refined on the basis of input from practitioners. These conventions were discussed and approved by representatives of the OBO Foundry ontologies at the first OBO Foundry Summit meeting in July 2008 at the European Bioinformatics Institute (EBI), Cambridge, UK, funded by the UKs Biotechnology and Biological Sciences Research Council (BBE0250801) and the Elixir project elixir-europe. org. Further feedback will allow us to continue refining and ultimately to finalize this proposal at the second OBO Foundry Summit meeting in June 2009 at the EBI. As part of this iterative development process we will continue to engage with other efforts, particular those outside the OBO Foundry community such as the W3C Semantic Web Health Care and Life Sciences Interest Group and the Ontology Engineering and Patterns Task Force of the W3C Semantic Web Best Practices and Deployment working group. Expand Abbreviations (see 3.4 in Table 1 ) When an abbreviation or acronym becomes more commonly used in everyday language than its full name: for example LASER, then it should be used as the name, with its expanded name captured as a synonym. In other words, usage frequency can take precedence over the rule of acronym avoidance. Declarations Acknowledgements We kindly acknowledge the members of the OBO Foundry ontologies for their valuable contribution to the survey. In particular we thank Robert Stevens, Luisa Montecchi-Palazzi, Judith Blake and the members of the OBI working group for their comments and contributions in fruitful discussions. We also gratefully thank the ontology communities under OBO Foundry for contributing to the survey and the BBSRC (BBD5242831, BBE0250801), the EU Network of Excellence NuGO (NoE 503630), the EU Carcinogenomics (PL037712) to SAS and PRS for funding the activities of DS. BSs contribution to this work was supported by the NIH Roadmap for Medical Research, Grant 1 U 54 HG004028 (National Center for Biomedical Ontology). Electronic supplementary material 1285920082855MOESM1ESM. zip Additional file 1: Surveying naming conventions within OBO Foundry ontologies . This SurveyResults. zip is a webpage presenting the results of the naming conventions survey that was carried out within the OBO Foundry ontologies. It contains diagrams and tables illustrating the answers to the surveys questions, as well as the discussion of these results. (ZIP 244 KB) Authors contributions This work was largely informed by the requirements of the annotation projects lead by SAS and PRS, who coordinated this work. DS was the knowledge engineer who reviewed the existing conventions and with SAS, PRS, BS, SL, CM and JL designed the survey. WK, BS and PRS worked with DS in defining the appropriate terminology for describing the naming conventions. Contributions and critical reviews by all the authors, in particular PRS, CT, SL, BS and SAS, delivered the final manuscript. Authors read and approved the final manuscript Authors Affiliations EMBL-EBI, Wellcome Trust Genome Campus Institute of Medical Biometry and Medical Informatics (IMBI), University Medical Center Center of Excellence in Bioinformatics and Life Sciences, and Department of Philosophy, University at Buffalo Berkeley Bioinformatics and Ontologies Project, Lawrence Berkeley National Labs Department of Information and Computer Science, Norwegian University of Science and Technology (NTNU) NERC Environmental Bioinformatics Centre (NEBC) References Cote RG, Jones P, Apweiler R, Hermjakob H: The Ontology Lookup Service, a lightweight cross-platform tool for controlled vocabulary queries. BMC Bioinformatics 2006, 7: 97. 10.11861471-2105-7-97 PubMed Central View Article PubMed Google Scholar Smith B, Ashburner M, Rosse C, Bard J, Bug W, Ceusters W, Goldberg LJ, Eilbeck K, Ireland A, Mungall CJ, et al . The OBO Foundry: coordinated evolution of ontologies to support biomedical data integration. Nat Biotechnol 2007, 25: 12511255. 10.1038nbt1346 PubMed Central View Article PubMed Google Scholar Bodenreider O, Stevens R: Bio-ontologies: current trends and future directions. Brief Bioinform 2006, 7: 256274. 10.1093bibbbl027 PubMed Central View Article PubMed Google Scholar Tuason O, Chen L, Liu H, Blake JA, Friedman C: Biological nomenclatures: a source of lexical knowledge and ambiguity. Pac Symp Biocomput 2004, 238249. Google Scholar Exploiting patterns in Ontology Mapping iswc2007.semanticweb. orgpapers950.pdf ISOIEC 111795, Information technology Metadata registries (MDR) Part 5:Naming and identification principles iso. orgisoisocataloguecataloguetccataloguedetail. htmcsnumber35347 The HCLS Ontology Task Force esw. w3.orgtopicHCLSLabelsandDefinitions NISO (Ed): ANSINISO Z39.192005, Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies. Bethesda, Maryland, U. S.A: National Information Standards Organization, NISO Press 2005. Google Scholar IUBMB-IUPAC Joint Commission on Biochemical Nomenclature (JCBN) iupac. orgdivisionsVIIIjcbnindex. html Naming Conventions for OBO Foundry Ontology engineering obofoundry. orgwikiindex. phpNaming Wright MW, Bruford EA: Human and orthologous gene nomenclature. Gene 2006, 369: 16. 10.1016j. gene.2005.10.029 View Article PubMed Google Scholar The New C Standard, An Economic and Cultural Commentary citeseer. ist. psu. edujones02new. html Brown SH, Lincoln M, Hardenbrook S, Petukhova ON, Rosenbloom ST, Carpenter P, Elkin P: Derivation and evaluation of a document-naming nomenclature. J Am Med Inform Assoc 2001, 8: 379390. PubMed Central View Article PubMed Google Scholar BioPAX biological pathways exchange language, Documentation biopax. orgreleasebiopax-level2-documentation. pdf ISO, International Organization for Standardization iso. org The Gene Ontology Editorial Style Guide geneontology. orgGO. usage. shtmlconventions Semantic web best practices and deployment group, Ontology Engineering and Patterns Task Force w3.org2001swBestPracticesOEP Sansone SA, Fan T, Goodacre R, Griffin JL, Hardy NW, Kaddurah-Daouk R, Kristal BS, Lindon J, Mendes P, Morrison N, et al . The metabolomics standards initiative. Nat Biotechnol 2007, 25: 846848. 10.1038nbt0807-846b View Article PubMed Google Scholar Smith B, Kusnierczyk W, Schober D, Ceusters W: Towards a Reference Terminology for Ontology Research and Development in the Biomedical Domain. KR-MED 2006 2006. ontology. buffalo. edubfoTerminologyforOntologies. pdf Google Scholar Ontology for Biomedical Investigations (OBI) obi. sourceforge Hermjakob H: The HUPO Proteomics Standards Initiative Overcoming the Fragmentation of Proteomics Data. Proteomics 2006, 6: 3438. 10.1002pmic.200600537 View Article PubMed Google Scholar Kismeta Validator v1.1b, Enterprise Data Standards Validation and Enforcement kismetaValidtr. html Day-Richter J, Harris MA, Haendel M, Lewis S: OBO-Edit an ontology editor for biologists. Bioinformatics 2007, 23: 21982200. 10.1093bioinformaticsbtm112 View Article PubMed Google Scholar Mungall CM: Obol: Integrating Language and Meaning in Bio-Ontologies. Comparative and Functional Genomics 2004, 5: 509520. 10.1002cfg.435 PubMed Central View Article PubMed Google Scholar Controlled Languages: An Introduction shlrc. mq. edu. aumastersstudentsraltwargclgrammar. htm Smith B, Khler J, Kumar A: On the Application of Formal Principles to Life Science Data: a Case Study in the Gene Ontology. DILS 2004, 7994. ontology. buffalo. edumedoDatabaseIntegration. pdf Google Scholar Schober et al licensee BioMed Central Ltd. 2009 This article is published under license to BioMed Central Ltd. This is an Open Access article distributed under the terms of the Creative Commons Attribution License ( creativecommons. orglicensesby2.0 ), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

No comments:

Post a Comment