Ciência Aberta: o papel dos metadados na descoberta de conhecimento

Guilherme Ataíde Dias; Moisés Lima Dutra; Fábio Mosso Moreira; Fernando de Assis Rodrigues; Ricardo César Gonçalves Sant'Ana

Informação, Dados e Tecnologia

Guilherme Ataíde Dias

Universidade Federal da Paraíba (UFPB) | guilhermeataide@ccsa.ufpb.br | https://orcid.org/0000-0001-6576-0017 | https://lattes.cnpq.br/9553707435669429

Graduado em Ciência da Computação pela Universidade Federal da Paraíba – UFPB Campus II (1990), Bacharel em Direito pelo Centro Universitário de João Pessoa – UNIPE (2010), Mestre em Organization & Management pela Central Connecticut State University – CCSU (1995), Doutor em Ciência da Informação (Ciências da Comunicação) pela Universidade de São Paulo – USP (2003) e Pós-Doutor pela UNESP (2011). Atualmente é professor Associado III na Universidade Federal da Paraíba, lotado no Departamento de Ciência da Informação. Está envolvido com a Pós-Graduação através do Programa de Pós-Graduação em Ciência da Informação e Programa de Pós-Graduação em Administração, ambos da UFPB. Tem interesse de pesquisa nas seguintes temáticas: Representação do Conhecimento; Arquitetura da Informação; Segurança da Informação; Tecnologias da Informação e Comunicação; Informação em Saúde; Redes Sociais; Software Livre; Direito, Ética e Propriedade Intelectual no Ciberespaço; Gestão de Dados Científicos; Informação Jurídica; Atualmente é Bolsista de Produtividade em Pesquisa (PQ) do CNPq.

Moisés Lima Dutra

Universidade Federal de Santa Catarina (UFSC) | moises.dutra@ufsc.br | https://orcid.org/0000-0003-1000-5553 | https://lattes.cnpq.br/1973469817655034

Professor Adjunto da Universidade Federal de Santa Catarina, Departamento de Ciência da Informação. Doutor em Computação pela Universidade de Lyon 1, França (2009). Mestre em Engenharia Elétrica, subárea Automação e Sistemas (2005) e Bacharel em Computação (1998) pela Universidade Federal de Santa Catarina. Suas atuais linhas de pesquisa estão relacionadas a Inteligência Artificial Aplicada (Machine Learning, Deep Learning, Web Semântica, Linked Data) e a Data Science (Text Mining, Big Data, IoT). Está vinculado ao grupo de pesquisa ITI-RG (Inteligência, Tecnologia e Informação - Research Group).

Fábio Mosso Moreira

Universidade Estadual Paulista (UNESP) | fabio.moreira@unesp.br | https://orcid.org/0000-0002-9582-4218 | https://lattes.cnpq.br/1614493890723021

Graduado em Administração de Empresas pela Faculdade de Ciências e Engenharia (UNESP/Tupã). Mestrado concluído em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Doutorado em andamento Programa de Pós-Graduação em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Atua como membro do Grupo de Pesquisa Novas Tecnologias em Informação - GPNTI (UNESP/Marília) e Grupo de Pesquisa Tecnologia de Acesso a Dados -GPTAD (UNESP / Tupã). Editor de Conteúdo da Revista Eletrônica Competências Digitais para Agricultura Familiar (RECoDAF). Possui Habilidade Profissional Técnica em Informática pela ETEC Massuyuki Kawano - Centro Paula Souza de Tupã. Tem experiência profissional na área de Sistemas de Informação ERP para Operações de Logística. Atualmente realiza pesquisas com foco na investigação de temas ligados à utilização de recursos digitais para a disponibilização e acesso a dados governamentais de Políticas Públicas no âmbito dos pequenos produtores.

Fernando de Assis Rodrigues

Universidade Federal do Pará (UFPA) | fernando@rodrigues.pro.br | https://orcid.org/0000-0001-9634-1202 | https://lattes.cnpq.br/5556499513805582

Professor Adjunto no Instituto de Ciências Sociais Aplicadas, lotado na Faculdade de Arquivologia da Universidade Federal do Pará. Doutor e Mestre em Ciência da Informação pela UNESP - Universidade Estadual Paulista. Especialista em Sistemas para Internet pela UNIVEM - Centro Universitário Eurípides de Marília. Bacharel em Sistemas de Informação pela USC - Universidade do Sagrado Coração. Membro dos grupos de pesquisa GPNTI - Novas Tecnologias em Informação e GPTAD - Tecnologias de Acesso a Dados (UNESP), GPIDT - Informação, Dados e Tecnologia (USP) e GPDM - Dados e Metadados (UFSCar). Editor do periódico RECoDAF - Revista Eletrônica Competências Digitas para a Agricultura Familiar. Atua nas áreas da Ciência da Informação e da Ciência da Computação, com ênfase em Engenharia de Software, Bancos de Dados, Tecnologia de Informação e Comunicação e Ambientes Informacionais Digitais, focado principalmente nos seguintes temas: Coleta de Dados, Dados, Acesso a Dados, Serviços de Redes Sociais Online, Linked Data, Linked Open Data, Metadados, Internet Applications, Linguagens de Programação, Banco de Dados e Bases de Dados, Privacidade, Governo eletrônico, Open Government Data e Transparência Pública.

Ricardo César Gonçalves Sant'Ana

Universidade Estadual Paulista (UNESP) | ricardo.santana@unesp.br | https://orcid.org/0000-0003-1387-4519 | https://lattes.cnpq.br/1022660730972320

Professor Associado da Universidade Estadual Paulista - UNESP, Faculdade de Ciências e Engenharias - FCE, Campus de Tupã, em regime de dedicação exclusiva, onde é Presidente da Comissão de Acompanhamento e Avaliação dos cursos de Graduação - CAACG, Coordenador Local do Centro de Estudos e Práticas Pedagógicas - CENEPP e Ouvidor Local. Professor do Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista, Campus de Marília. Graduado em Matemática e Pedagogia, Mestrado em Ciência da Informação (2002), Doutorado em Ciência da Informação (2008) e Livre-Docente em Sistemas de Informações Gerenciais pela UNESP (2017). Possui especializações em Orientação à Objetos (1996) e Gestão de Sistemas de Informação (1998). Parecerista ad hoc de periódicos e de agências de fomento. Lider do Grupo de Pesquisa - Tecnologias de Acesso a Dados (GPTAD) e membro do Grupo de Pesquisa - Novas Tecnologias em Informação GPNTI. Tem experiência na área de Ciência da Computação, atualmente realiza pesquisas com foco em: ciência da informação e tecnologia da informação, investigando temas ligados ao Ciclo de Vida dos Dados, Transparência e ao Fluxo Informacional em Cadeias Produtivas. Atuou como professor na Faccat Faculdade de Ciências Contábeis e Administração de Tupã, onde coordenou curso de Administração com Habilitação em Análise de Sistemas por dez anos e o curso de Licenciatura em Computação. Atuou no setor privado como consultor, integrador e pesquisador de novas tecnologias informacionais de 1988 a 2004.

Organizadores

Guilherme Ataíde Dias

Universidade Federal da Paraíba (UFPB) | guilhermeataide@ccsa.ufpb.br | https://orcid.org/0000-0001-6576-0017 | https://lattes.cnpq.br/9553707435669429

Graduado em Ciência da Computação pela Universidade Federal da Paraíba – UFPB Campus II (1990), Bacharel em Direito pelo Centro Universitário de João Pessoa – UNIPE (2010), Mestre em Organization & Management pela Central Connecticut State University – CCSU (1995), Doutor em Ciência da Informação (Ciências da Comunicação) pela Universidade de São Paulo – USP (2003) e Pós-Doutor pela UNESP (2011). Atualmente é professor Associado III na Universidade Federal da Paraíba, lotado no Departamento de Ciência da Informação. Está envolvido com a Pós-Graduação através do Programa de Pós-Graduação em Ciência da Informação e Programa de Pós-Graduação em Administração, ambos da UFPB. Tem interesse de pesquisa nas seguintes temáticas: Representação do Conhecimento; Arquitetura da Informação; Segurança da Informação; Tecnologias da Informação e Comunicação; Informação em Saúde; Redes Sociais; Software Livre; Direito, Ética e Propriedade Intelectual no Ciberespaço; Gestão de Dados Científicos; Informação Jurídica; Atualmente é Bolsista de Produtividade em Pesquisa (PQ) do CNPq.

Moisés Lima Dutra

Universidade Federal de Santa Catarina (UFSC) | moises.dutra@ufsc.br | https://orcid.org/0000-0003-1000-5553 | https://lattes.cnpq.br/1973469817655034

Professor Adjunto da Universidade Federal de Santa Catarina, Departamento de Ciência da Informação. Doutor em Computação pela Universidade de Lyon 1, França (2009). Mestre em Engenharia Elétrica, subárea Automação e Sistemas (2005) e Bacharel em Computação (1998) pela Universidade Federal de Santa Catarina. Suas atuais linhas de pesquisa estão relacionadas a Inteligência Artificial Aplicada (Machine Learning, Deep Learning, Web Semântica, Linked Data) e a Data Science (Text Mining, Big Data, IoT). Está vinculado ao grupo de pesquisa ITI-RG (Inteligência, Tecnologia e Informação - Research Group).

Fábio Mosso Moreira

Universidade Estadual Paulista (UNESP) | fabio.moreira@unesp.br | https://orcid.org/0000-0002-9582-4218 | https://lattes.cnpq.br/1614493890723021

Graduado em Administração de Empresas pela Faculdade de Ciências e Engenharia (UNESP/Tupã). Mestrado concluído em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Doutorado em andamento Programa de Pós-Graduação em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Atua como membro do Grupo de Pesquisa Novas Tecnologias em Informação - GPNTI (UNESP/Marília) e Grupo de Pesquisa Tecnologia de Acesso a Dados -GPTAD (UNESP / Tupã). Editor de Conteúdo da Revista Eletrônica Competências Digitais para Agricultura Familiar (RECoDAF). Possui Habilidade Profissional Técnica em Informática pela ETEC Massuyuki Kawano - Centro Paula Souza de Tupã. Tem experiência profissional na área de Sistemas de Informação ERP para Operações de Logística. Atualmente realiza pesquisas com foco na investigação de temas ligados à utilização de recursos digitais para a disponibilização e acesso a dados governamentais de Políticas Públicas no âmbito dos pequenos produtores.

Fernando de Assis Rodrigues

Universidade Federal do Pará (UFPA) | fernando@rodrigues.pro.br | https://orcid.org/0000-0001-9634-1202 | https://lattes.cnpq.br/5556499513805582

Professor Adjunto no Instituto de Ciências Sociais Aplicadas, lotado na Faculdade de Arquivologia da Universidade Federal do Pará. Doutor e Mestre em Ciência da Informação pela UNESP - Universidade Estadual Paulista. Especialista em Sistemas para Internet pela UNIVEM - Centro Universitário Eurípides de Marília. Bacharel em Sistemas de Informação pela USC - Universidade do Sagrado Coração. Membro dos grupos de pesquisa GPNTI - Novas Tecnologias em Informação e GPTAD - Tecnologias de Acesso a Dados (UNESP), GPIDT - Informação, Dados e Tecnologia (USP) e GPDM - Dados e Metadados (UFSCar). Editor do periódico RECoDAF - Revista Eletrônica Competências Digitas para a Agricultura Familiar. Atua nas áreas da Ciência da Informação e da Ciência da Computação, com ênfase em Engenharia de Software, Bancos de Dados, Tecnologia de Informação e Comunicação e Ambientes Informacionais Digitais, focado principalmente nos seguintes temas: Coleta de Dados, Dados, Acesso a Dados, Serviços de Redes Sociais Online, Linked Data, Linked Open Data, Metadados, Internet Applications, Linguagens de Programação, Banco de Dados e Bases de Dados, Privacidade, Governo eletrônico, Open Government Data e Transparência Pública.

Ricardo César Gonçalves Sant'Ana

Universidade Estadual Paulista (UNESP) | ricardo.santana@unesp.br | https://orcid.org/0000-0003-1387-4519 | https://lattes.cnpq.br/1022660730972320

Professor Associado da Universidade Estadual Paulista - UNESP, Faculdade de Ciências e Engenharias - FCE, Campus de Tupã, em regime de dedicação exclusiva, onde é Presidente da Comissão de Acompanhamento e Avaliação dos cursos de Graduação - CAACG, Coordenador Local do Centro de Estudos e Práticas Pedagógicas - CENEPP e Ouvidor Local. Professor do Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista, Campus de Marília. Graduado em Matemática e Pedagogia, Mestrado em Ciência da Informação (2002), Doutorado em Ciência da Informação (2008) e Livre-Docente em Sistemas de Informações Gerenciais pela UNESP (2017). Possui especializações em Orientação à Objetos (1996) e Gestão de Sistemas de Informação (1998). Parecerista ad hoc de periódicos e de agências de fomento. Lider do Grupo de Pesquisa - Tecnologias de Acesso a Dados (GPTAD) e membro do Grupo de Pesquisa - Novas Tecnologias em Informação GPNTI. Tem experiência na área de Ciência da Computação, atualmente realiza pesquisas com foco em: ciência da informação e tecnologia da informação, investigando temas ligados ao Ciclo de Vida dos Dados, Transparência e ao Fluxo Informacional em Cadeias Produtivas. Atuou como professor na Faccat Faculdade de Ciências Contábeis e Administração de Tupã, onde coordenou curso de Administração com Habilitação em Análise de Sistemas por dez anos e o curso de Licenciatura em Computação. Atuou no setor privado como consultor, integrador e pesquisador de novas tecnologias informacionais de 1988 a 2004.

Ciência Aberta: o papel dos metadados na descoberta de conhecimento

Páginas: 8 - 14

Autores

Ana Alice Baptista

Universidade do Minho (UMinho) | analice@dsi.uminho.pt | https://orcid.org/0000-0003-3525-0619 | https://www.degois.pt/visualizador/curriculum.jsp?key=4103065722022437

Concluiu Tecnologias e Sistemas de Informação pela Universidade do Minho em 2003. É Professor Auxiliar na Universidade do Minho. Publicou 15 artigos em revistas especializadas e 36 trabalhos em actas de eventos, possui 8 capítulos de livros e 5 livros publicados. Possui 16 softwares e outros 88 itens de produção técnica. Participou em 31 eventos no estrangeiro e 24 em Portugal. Orientou 1 tese de doutoramento e co-orientou 2, orientou 10 dissertações de mestrado, alem de ter orientado 3 trabalhos de conclusão de curso de bach./licenciatura e 14 trabalhos de iniciação científica nas áreas de Engenharia Electrotécnica, Electrónica e Informática, Ciências da Computação e da Informação e Outras Ciências Sociais. Entre 2001 e 2010 participou em 3 projectos de investigação, sendo que coordenou 2 destes. Actua na área de Ciências Exactas com ênfase em Ciências da Computação e da Informação. Nas suas actividades profissionais interagiu com 78 colaboradores em co-autorias de trabalhos científicos. No seu curriculum DeGóis os termos mais frequentes na contextualização da produção científica, tecnológica e artístico-cultural são: Metadados, Web semântica, Dublin Core, Comunicação científica, Sistemas de Informação, RDF, Acesso Livre, Publicação Electrónica, Repositórios Institucionais e Bibliotecas Digitais.

Transcrição do Vídeo

A primeira coisa que eu quero dizer é agradecer ao convite, a organização, é um prazer imenso estar aqui. Nunca tinha vindo a João Pessoa, ontem fiquei um bocadinho preocupado quando professor Guilherme disse que havia ali uma jibóia e algumas cobras coral, e isso me deixa um bocadinho preocupada, pensei será que em meu quarto haverá alguma coisa estranha mas tudo bem.

Para mim é bastante diferente, mas é muito bom, é um prazer imenso estar aqui, a primeira coisa que eu queria dizer é agradecer a Universidade Federal da Paraíba,ao evento o convite. Cumprimetnar meu colegas, os que eu conheço e os que eu não conheço, cumprimentar também a audiência e desejar a todos um excelente workshop.

Queria dizer também que gostei muito das falas da mesa, gostei muito de saber que os anais do workshop vão ser disponibilizados assim dessa forma. É uma almofada de ar fresco, porque nós já temos as tecnologias para fazer isso a anos, e a comunidade científica é muito conservadora nos seus processos, não é conservadora em suas investigações mas em seus processos na minha opinião é muita conservadora.

Nós já mudamos e temos as tecnologias suficientes para fazer muitas coisas e não fazermos, e portanto é muito bom e fico muito feliz, dou toda autorização para fazerem a transcrição ou fazerem que quiserem porque é disso mesmo que precisamos, precisamos pôr as coisas a mexer, abalar um pouquinho as estruturas e fazer de forma diferente, porque não é pela dificuldade tecnológica que não fazemos. Essa era uma das coisas que eu ia dizer e portanto certamente estou aqui com essa perspectiva para contribuir para algo de bom, para que as coisas que fazemos estejam disponíveis e possam ser usadas, é disso que eu venho a falar hoje.

Eu vou falar de ciência aberta, da minha perspectiva de ciência aberta, eu tenho trabalhado ultimamente nas temáticas dos dados fundamentais abertos com a consciente aberta, na Europa eu tenho sentido que a ciência aberta está um pouco ao horizonte de algumas coisas, e o nível de tecnologias, de perspectivas de organização da informação, da minha perspectiva os dados fundamentais abertos estão a caminhar na ciência aberta.

Mas a ciência aberta também já está a querer a pegar o comboio. Acho que alguns anos atrás eu ficava muito na questão do acesso infra ao acesso aberto que é muito importante, mas muito na questão do repositório e pouco além dos repositório. Portanto vou dar minha perspectiva sobre isso, vou falar do Linked Open Data ou dados linkados abertos, acho que no Brasil seria dados abertos vinculados, metadados e claro para aquilo que me convidaram para vir aqui que é papel dos metadados na ciência aberta e que tem a ver com essas coisas todas.

E vou começar falando o que significa estar aberto. Estar aberto eu vou buscar a definição da Open Knowledge Foundation que diz que aberto significa que qualquer pessoa pode livremente usar, modificar, compartilhar, para qualquer propósito, portanto está aberto para outro acessar.

No Portal Português de Ciência Aberta tem uma frase muito interessante que é essa “o conhecimento é de todos e para todos”. Está de acordo também com o que diz a Open Knowledge Foundation o conhecimento e para todos e não somente para alguns. E também com o que o senhor vice diretor vinha a dizer, e o professor Ricardo e professor Guilherme, na questão da distribuição do conhecimento, ele não pode ficar enclausurado, precisa ser distribuído, disseminado por todos.

Ciência aberta, estamos a falar sobre o que significa estar aberto, está aberto não é só estar disponível, é mais do que isso, é poder ser utilizado. Na Ciência Aberta estamos a falar de partilha sem reservas, de informação, isso aqui já é um olhar meu, sobre o que está no portal português de ciência aberta.

Não estamos apenas a falar de partilha de documentos, de partilha de dados, estamos a falar de partilha de processos também do processo científico, na verdade é da cultura da informação dos processos científicos, expandindo um conceito de responsabilidade social.

Portanto, o que aparece no portal da ciência aberta português fala que publicações e dados abertos, a investigação e inovação abertos, eu botei aqui processos de investigação e inovação abertos, redes abertos, ciência e ciência aberta.

Eu acho que aqui nas publicações não são só publicações, portanto eu não compilei nada sobre mas eu acho que aquelas publicações não são apenas textos, temos mais coisa, portanto temos os vídeos, áudios, fotografias, o que tivermos, desde que sejam carácter científico. Eu mudei então ao invés de chamar de publicações vamos chamar de fatos, mas de enquanto estiver a falar sobre publicações estamos a enfocar no texto, e nós podemos fazer muito mais.

Desmistificar os artefatos e os processos, portanto chega da gente ter as coisas disponíveis online, vou dar aqui alguns exemplos. Este aqui são vídeos, e screenshots de vídeos do periódico de vídeos, de um artigo que publicado em texto e possui um vídeo acompanhado. Este aqui é também uma captura de tela da informação e dados que estão disponíveis no European Portal de dados de ciência e tecnologia, portanto são dados científicos que estão ali.

A gente ter só disponível o vídeo é suficiente para encontrar esse vídeo, é o suficiente para conseguir manipular esses dados? nós conseguimos manipular esses dados, e depois de entrara ali não consegui compreender nada daquilo. Os vídeos estão disponíveis, mas precisamos de mais um bocadinho além de publicar os artefatos na Web e achar que estamos a fazer ciência aberta.

Tem fundação do suporte que não são facilmente encontrados não são pesquisáveis. Então por que vamos abrir se eles estão ali mas não são encontrados e nem pesquisáveis, não dá para fazer nada, qual as necessidades de abrir.

Outro exemplo, entrando dentro dos dados fui buscar dados que a gente consegue ler, esse aqui é em espanhol, e me diz uma coisa, para compreender o que significa entrar aqui dentro dessa ciência, entrar e compreender o que são aqueles dados, para nós humanos que sabemos ler francês, espanhol, e conseguimos saber o significado daquilo que está escrito, não é fácil.

Eu tentei e não tenho a certeza de ter conseguido compreender aquilo, e também embora aqui seja um pouquinho mais fácil, eu tenho número de avaliadores na gestão pública mas eu não sei o que é este CIA, portanto há aqui bastante coisa que a gente não sabe o suficiente para conseguir interpretar esses dados de forma fidedigna, por mais que entenda o que está aqui escrita, aqui eu tenho o portal, etc., várias parcelas, mas por mais que a gente entenda aquilo não conseguimos interpretar bem aqueles dados.

E nós somos humanos, nós temos capacidade de interpretação, agora tendo esses dados abertos e máquina virem buscar esses dados e tentar aproximar esses dados automaticamente sem intervenção humana, ou com pouca intervenção humana, com outros dados não consegue fazer.

Portanto muitos dos artefatos que tentamos disponibilizar não são interpretáveis, e facilmente utilizados por causa disso. A minha utilização dos dados está diretamente ligada com coisas automáticas ou mais automáticas possível, está diretamente ligada a interoperabilidade, em particular, à interoperabilidade semântica, que é ser significado, deve ser informação que permita as máquinas interpretar o que está ali. Portanto se essas informações não vem junto com os dados não se consegue interpretar.

Se não se consegue utilizar nem interpretar para que abrimos? para que disponibilizar? Na verdade precisamos de dados, na ciência aberta lidamos com dados, e dados sobre os dados, e quando falta dados não faltam so dados, faltam também outras coisas. Nós precisamos dos dados e dos catálogos, e tudo com os formatos adequados e significados embutidos, tenho que trazer significado para que eles possam ser interpretados.

Repare aqui, entrevistas foram realizadas com indivíduos que trabalham em instituições de ensino superior. Pelo catálogo eu consigo ter aquelas informações todas sobre os dados, e consigo ter aquela informação conforme processada por máquinas.

Outro exemplo, datasets que conjuntos de dados foram voltados de questionários sobre a necessidade de informação de médicos, portanto os nossos catálogos podem ter coisas mais simples outras mais rebuscadas.

E depois outra coisa que já tem a ver com os dados, entrar nos dados por dentro e ter mais informações, não apenas informações nos catálogos, mas também informação que está nos dados, e se esses dados trouxer significado com ela a gente consegue responder perguntas mais complexas, como por exemplo, que artigos sobre as necessidades de médicos oncologistas apresentam como resultado necessidade de informação sobre diagnóstico?

Aqui estamos a falar dos dados e aqui estamos a falar dos catálogos. Se essa informação vier dos dados e estiver em uma forma processável por máquina e trazer significado a gente consegue fazer perguntas desse gênero, e consegue aproximar isso daqui com dados de outros sítios facilmente.

É preciso poder interpretar facilmente não somente os catálogos mas os próprios dados. Tem havido um esforço grande por tratar os catálogos em Linked Open Data mas os dados também precisam estar em Linked Data, ou múltiplas informações sobre os dados precisam estar nos catálogos, temos que incluir mais informação no catálogo.

Este aqui é o primeiro site que eu pus no início quando tinha feito a definição de ciência aberta, e portanto são estas coisas todas que para mim que trabalho com dados e imagino que para muitas pessoas que estão aqui, nós precisamo a falar de dados, dados e metadados.

O que nós vamos ter de fato são artefatos e dados sobre os artefatos, os dados abertos também são um tipo artefato só que na definição aparecem separados, e dados sobre dados abertos, o processo e dados sobre o processo, redes abertas de ciência e dados sobre redes abertas de ciência.

Ter os processos abertos mas ter os processos abertos significa ter também dados sobre os processos, e estes dados estarem também abertos, e podem ser trabalhados e processados e cruzados com outros dados.

E informação devem ser interpretáveis para humanos e para máquinas, portanto devem ser human-readable e machine-readable. Uma das coisas que eu vejo também é gente que balança entre dois extremos, um é tudo human-readable ou ter tudo machine, nós humanos precisamos também de ler e processar aquela informação e buscar aqueles dados, e se a informação não estiver legível por máquinas também não conseguiremos trabalhar aquilo.

Viemos aqui a uma sigla que vocês já ouviram que é FAIR, que os dados devem ser FAIR, quer dizer Findable, Accessible, Interoperable and Reusable, ou seja, encontrável, acessível, interoperável e reutilizável. Na minha opinião é que tem havido um esforço muito grande aqui no Findable e no Accesible e esforço bastante menor aqui no Interoperable e Reusable, e eu acho que nós estamos na hora de fazer esse esforço. Tem havido algumas iniciativas mas é preciso mais, é preciso um esforço da comunidade para encontrar esses dados que nós temos disponíveis. Eu sei que os dados de catálogo ainda não são interoperáveis, eu sei que nós temos iniciativas mas não chega, vamos por dados linked data nos catálogos.

Quando eu falo que nestas coisas, no FAIR, estou a falar da coleta de metadados, portanto não estamos a fazer as coisas ainda bem feita. A gente precisa mudar para o paradigma dos dados abertos dos dados em linked data. Por que? O linked data são dados semanticamente interoperáveis através de comunidades de prática, empresas, governo, possuem uma dificuldade de interoperabilidade mas nós temos que caminhar para lá.

Atualmente na minha opinião o cenário que nós temos é esse. Temos artigos, teses, relatórios, que falam muito bem um com os outros, com o protocolo PMH, mas falam mais ou mesmo porque depois vamos ver os metadados e vemos que algumas coisas não cruzam com outras. Depois temos os repositórios científicos com protocolos que também falam uns com outros, e também algumas outras coisas que falam com outras e estão ali.

Então temos ali coisas que falam uns com as outras mas que não falam com quem estão ao lado, atualmente a expressão que tem sido muito utilizada são os silos de dados. E Quando eu falo de interoperabilidade local é para essas coisas falando uma com as outras, é ter um mínimo de interoperabilidade, quando eu vou a Inglaterra eu não falo com os inglês mas eles vão me reconhecer, e a mesma coisa com os franceses certo, mas entre os franceses e os ingleses eles conseguem resolver a questão. Com o espanhol todos temos essa questão que também estamos conseguindo resolver a questão. A interoperabilidade é isso, é por significado perceptível pelo outro.

Aqui um exemplo da LOD cloud, que significa Linked Open Data cloud, e esses aqui são datasets, são cada vez mais datasets, e a gente consegue ver ali no meio uns especiais que são a DBPedia por exemplo, mas hoje já tem muitos datasets. Esses datasets para estarem aqui tem que ter dados abertos e cumprir as regras do linked data.

O que eu falo é o que o Berners Lee chamou de dados cinco estrelas, em data portals você encontra dados em XLS e CSV, portanto estamos a falar de duas estrelas e tres estrelas. Mas o que isso significa?

Isso significa que o primeiro está na web mas é PDF, que não é facilmente processada. O segundo está na web como dados estruturados, como por exemplo XLS mas é formato proprietário. O terceiro é igual a este mas já não é proprietário, como CSV. O quarto é estar em RDF, que é um formato de base da web semântica. E o quinto é ser linked data, que significa linked data? Linked data significa dados com contexto, dados com significado, ou seja, eu preciso ter os meus dados e preciso não só de ser ligados entre eles, mas ser ligados a outros dados que já existem para darem contexto aos meus dados. E esses dados que já existem eles próprios estão ligados entre eles e estão ligados com outros, e que nós temos esse tal grafo que vocês viram anteriormente aqui destas ligações todas entre dados e datasets.

O que nós falávamos no início da ciência aberta? Dos artefatos e dados, no portal da ciência aberta português, nós criamos essas coisas todas não aqui mas aqui em cima, no linked data. Por isso precisamos de identificadores para as coisas, em Web Semântica temos que identificar coisas, e os identificadores tem que ser únicos, e depois ligar esses dados todos, para trazer contexto.

Aqui está um exemplo que eu trouxe, reparem aqui, isto aqui é uma parte de um vocabulário feito pelos meus alunos, no âmbito desse trabalho eles tiveram que cuidar de um vocabulário controlado de áreas científicas e importar aquilo em uma tecnologia que se chama SKOS. Então eles fizeram isso e aqui é uma parte, temos aqui um conceito que é um conceito da área de economia que faz parte desse conceito maior que é o 110 que é indivíduos, instituições e metadados.

Este aqui é chamado na descrição de dados com o link. Ao invés de por economia que está human-readable mas está aqui machine-readable o link para conseguir ser processado. Quando eu falo de link para outras coisas é isso, nós temos nossos dados e que ligam com outras coisas. Quando a gente for utilizar este vocabulário controlado pode utilizar pode interrogar meus dados como se tivesse em uma grande gama de dados e não como se estivesse confinados.

Aqui trago outro exemplo que é também do meu grupo de investigação, reparem tem informação sobre várias coisas do grupo, quem é líder do grupo, nesse caso não puseram nome mas está aqui o link, é um link ORCID da pessoa que está a frente do grupo de investigação. Quando falamos de linked data é isso, ou seja, não aparece nenhum nome mas aparece para as máquinas processarem o link. A mesma coisa aqui, e aqui outra vez a mesma coisa, apontando para um vocabulário controlado para dizer qual área, isso é o linked data, é ter as coisas ligadas, é trazer contexto.

Se eu puser tecnologia TSI que é tecnologia e sistemas de informação nós compreendemos mas para uma máquina qualquer a processar aquilo em um contexto qualquer não compreende o que está ali, precisa de informação adicional, senão vou processar ingles, frances, portugues, tudo igual.

Isso é um exemplo de um grafo mas é uma coisa muito pequenina, na LOD cloud, é um grafo RDF. Tendo isto nós conseguimos ter isto que é que queremos, e a pergunta que eu faço é hoje o professor Ricardo Sant’Ana disse que os anais desse workshop vão ser publicados em uma forma completamente distinta e aberta. Quando eu falo aberta não é estar simplesmente na Web, quando eu falo aberta é vídeo, texto, etc, aberto no sentido de mais larga.

O que eu gostaria muito é que isto aconteça e estar a acontecer, no governo eletrónico isso está lá na frente na Europa já aconteceu, na ciência está mais devagar, mas pode ser que passe a frente do governo eletrônico. Quando digo isto eu falo de iniciativas da Europa, não estou a falar de casos fantásticos da ciência que ocorrem nos EUA, mas eu vejo alguma coisa em escala a acontecer.

A minha apresentação via terminar aqui, fiquem com esses desafios para vocês, pensem e levem isso convosco, vão ter mais apresentações aqui hoje que estão relacionadas com essa temática, e portanto pensem nisso e pensem em fazer.

Mais algumas coisas que eu acho que pode ser interessante para vocês da Dublin Core Metadata Initiative tem um canal do Youtube com alguns vídeos, a maior parte são inglês mas tem também em espanhol, e português. Há um projeto que tem um muitos cursos interessantes, não só em texto mas também em vídeo, e que são linkados, colocados no linked data, portanto podem confiar.

E se quiserem eu tenho um scribd sobre Web Semântica que às vezes ponho coisas interessantes, podem também consultar que pode ser interessante. DEpois chamar atenção para essa recomendação, ontem ainda eu vi o professor Guilherme falou sobre três brasileiros, é sobre guia prático para se ter dados na web. Isto aqui ainda não está tal como a gente gostaria mas é um bom conjunto de boas práticas para dados na web.

Também chamar a atenção para essa linguagem, que é uma linguagem para fazer espécie de templates para registros RDF, e portanto para fazer uma espécie que funciona como um Schema, que são espécie de formas onde avaliamos nossos dados para ver se nossos dados estão de acordo com as regras definidas, para repositórios, e para quem tem responsabilidade para criar normas pode ser interessante.

Depois por último acompanhar os trabalhos deste Dataset Exchange Working Group que está desenvolvendo uma série de especificações do W3C sobre essas temáticas. Aqui tem várias coisas acontecendo neste grupo começou com um objetivo pequeno e hoje tem quatro ou cinco especificações.

São coisas muito recentes que estão acontecendo e vale a pena que vocês de vez em quando entrem lá para ver o que está a acontecer. E pronto, termino aqui, muito obrigado, e estou aberto a questões.

Informação, Dados e Tecnologia

Guilherme Ataíde Dias

Moisés Lima Dutra

Fábio Mosso Moreira

Fernando de Assis Rodrigues

Ricardo César Gonçalves Sant'Ana

Organizadores

Guilherme Ataíde Dias

Moisés Lima Dutra

Fábio Mosso Moreira

Fernando de Assis Rodrigues

Ricardo César Gonçalves Sant'Ana

Ciência Aberta: o papel dos metadados na descoberta de conhecimento

Autores

Ana Alice Baptista

Transcrição do Vídeo

Apoio