Informação, Dados e Tecnologia

Guilherme Ataíde Dias

Universidade Federal da Paraíba (UFPB) | guilhermeataide@ccsa.ufpb.br | https://orcid.org/0000-0001-6576-0017 | https://lattes.cnpq.br/9553707435669429

Graduado em Ciência da Computação pela Universidade Federal da Paraíba – UFPB Campus II (1990), Bacharel em Direito pelo Centro Universitário de João Pessoa – UNIPE (2010), Mestre em Organization & Management pela Central Connecticut State University – CCSU (1995), Doutor em Ciência da Informação (Ciências da Comunicação) pela Universidade de São Paulo – USP (2003) e Pós-Doutor pela UNESP (2011). Atualmente é professor Associado III na Universidade Federal da Paraíba, lotado no Departamento de Ciência da Informação. Está envolvido com a Pós-Graduação através do Programa de Pós-Graduação em Ciência da Informação e Programa de Pós-Graduação em Administração, ambos da UFPB. Tem interesse de pesquisa nas seguintes temáticas: Representação do Conhecimento; Arquitetura da Informação; Segurança da Informação; Tecnologias da Informação e Comunicação; Informação em Saúde; Redes Sociais; Software Livre; Direito, Ética e Propriedade Intelectual no Ciberespaço; Gestão de Dados Científicos; Informação Jurídica; Atualmente é Bolsista de Produtividade em Pesquisa (PQ) do CNPq.

Moisés Lima Dutra

Universidade Federal de Santa Catarina (UFSC) | moises.dutra@ufsc.br | https://orcid.org/0000-0003-1000-5553 | https://lattes.cnpq.br/1973469817655034

Professor Adjunto da Universidade Federal de Santa Catarina, Departamento de Ciência da Informação. Doutor em Computação pela Universidade de Lyon 1, França (2009). Mestre em Engenharia Elétrica, subárea Automação e Sistemas (2005) e Bacharel em Computação (1998) pela Universidade Federal de Santa Catarina. Suas atuais linhas de pesquisa estão relacionadas a Inteligência Artificial Aplicada (Machine Learning, Deep Learning, Web Semântica, Linked Data) e a Data Science (Text Mining, Big Data, IoT). Está vinculado ao grupo de pesquisa ITI-RG (Inteligência, Tecnologia e Informação - Research Group).

Fábio Mosso Moreira

Universidade Estadual Paulista (UNESP) | fabio.moreira@unesp.br | https://orcid.org/0000-0002-9582-4218 | https://lattes.cnpq.br/1614493890723021

Graduado em Administração de Empresas pela Faculdade de Ciências e Engenharia (UNESP/Tupã). Mestrado concluído em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Doutorado em andamento Programa de Pós-Graduação em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Atua como membro do Grupo de Pesquisa Novas Tecnologias em Informação - GPNTI (UNESP/Marília) e Grupo de Pesquisa Tecnologia de Acesso a Dados -GPTAD (UNESP / Tupã). Editor de Conteúdo da Revista Eletrônica Competências Digitais para Agricultura Familiar (RECoDAF). Possui Habilidade Profissional Técnica em Informática pela ETEC Massuyuki Kawano - Centro Paula Souza de Tupã. Tem experiência profissional na área de Sistemas de Informação ERP para Operações de Logística. Atualmente realiza pesquisas com foco na investigação de temas ligados à utilização de recursos digitais para a disponibilização e acesso a dados governamentais de Políticas Públicas no âmbito dos pequenos produtores.

Fernando de Assis Rodrigues

Universidade Federal do Pará (UFPA) | fernando@rodrigues.pro.br | https://orcid.org/0000-0001-9634-1202 | https://lattes.cnpq.br/5556499513805582

Professor Adjunto no Instituto de Ciências Sociais Aplicadas, lotado na Faculdade de Arquivologia da Universidade Federal do Pará. Doutor e Mestre em Ciência da Informação pela UNESP - Universidade Estadual Paulista. Especialista em Sistemas para Internet pela UNIVEM - Centro Universitário Eurípides de Marília. Bacharel em Sistemas de Informação pela USC - Universidade do Sagrado Coração. Membro dos grupos de pesquisa GPNTI - Novas Tecnologias em Informação e GPTAD - Tecnologias de Acesso a Dados (UNESP), GPIDT - Informação, Dados e Tecnologia (USP) e GPDM - Dados e Metadados (UFSCar). Editor do periódico RECoDAF - Revista Eletrônica Competências Digitas para a Agricultura Familiar. Atua nas áreas da Ciência da Informação e da Ciência da Computação, com ênfase em Engenharia de Software, Bancos de Dados, Tecnologia de Informação e Comunicação e Ambientes Informacionais Digitais, focado principalmente nos seguintes temas: Coleta de Dados, Dados, Acesso a Dados, Serviços de Redes Sociais Online, Linked Data, Linked Open Data, Metadados, Internet Applications, Linguagens de Programação, Banco de Dados e Bases de Dados, Privacidade, Governo eletrônico, Open Government Data e Transparência Pública.

Ricardo César Gonçalves Sant'Ana

Universidade Estadual Paulista (UNESP) | ricardo.santana@unesp.br | https://orcid.org/0000-0003-1387-4519 | https://lattes.cnpq.br/1022660730972320

Professor Associado da Universidade Estadual Paulista - UNESP, Faculdade de Ciências e Engenharias - FCE, Campus de Tupã, em regime de dedicação exclusiva, onde é Presidente da Comissão de Acompanhamento e Avaliação dos cursos de Graduação - CAACG, Coordenador Local do Centro de Estudos e Práticas Pedagógicas - CENEPP e Ouvidor Local. Professor do Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista, Campus de Marília. Graduado em Matemática e Pedagogia, Mestrado em Ciência da Informação (2002), Doutorado em Ciência da Informação (2008) e Livre-Docente em Sistemas de Informações Gerenciais pela UNESP (2017). Possui especializações em Orientação à Objetos (1996) e Gestão de Sistemas de Informação (1998). Parecerista ad hoc de periódicos e de agências de fomento. Lider do Grupo de Pesquisa - Tecnologias de Acesso a Dados (GPTAD) e membro do Grupo de Pesquisa - Novas Tecnologias em Informação GPNTI. Tem experiência na área de Ciência da Computação, atualmente realiza pesquisas com foco em: ciência da informação e tecnologia da informação, investigando temas ligados ao Ciclo de Vida dos Dados, Transparência e ao Fluxo Informacional em Cadeias Produtivas. Atuou como professor na Faccat Faculdade de Ciências Contábeis e Administração de Tupã, onde coordenou curso de Administração com Habilitação em Análise de Sistemas por dez anos e o curso de Licenciatura em Computação. Atuou no setor privado como consultor, integrador e pesquisador de novas tecnologias informacionais de 1988 a 2004.


Organizadores

Guilherme Ataíde Dias

Universidade Federal da Paraíba (UFPB) | guilhermeataide@ccsa.ufpb.br | https://orcid.org/0000-0001-6576-0017 | https://lattes.cnpq.br/9553707435669429

Graduado em Ciência da Computação pela Universidade Federal da Paraíba – UFPB Campus II (1990), Bacharel em Direito pelo Centro Universitário de João Pessoa – UNIPE (2010), Mestre em Organization & Management pela Central Connecticut State University – CCSU (1995), Doutor em Ciência da Informação (Ciências da Comunicação) pela Universidade de São Paulo – USP (2003) e Pós-Doutor pela UNESP (2011). Atualmente é professor Associado III na Universidade Federal da Paraíba, lotado no Departamento de Ciência da Informação. Está envolvido com a Pós-Graduação através do Programa de Pós-Graduação em Ciência da Informação e Programa de Pós-Graduação em Administração, ambos da UFPB. Tem interesse de pesquisa nas seguintes temáticas: Representação do Conhecimento; Arquitetura da Informação; Segurança da Informação; Tecnologias da Informação e Comunicação; Informação em Saúde; Redes Sociais; Software Livre; Direito, Ética e Propriedade Intelectual no Ciberespaço; Gestão de Dados Científicos; Informação Jurídica; Atualmente é Bolsista de Produtividade em Pesquisa (PQ) do CNPq.

Moisés Lima Dutra

Universidade Federal de Santa Catarina (UFSC) | moises.dutra@ufsc.br | https://orcid.org/0000-0003-1000-5553 | https://lattes.cnpq.br/1973469817655034

Professor Adjunto da Universidade Federal de Santa Catarina, Departamento de Ciência da Informação. Doutor em Computação pela Universidade de Lyon 1, França (2009). Mestre em Engenharia Elétrica, subárea Automação e Sistemas (2005) e Bacharel em Computação (1998) pela Universidade Federal de Santa Catarina. Suas atuais linhas de pesquisa estão relacionadas a Inteligência Artificial Aplicada (Machine Learning, Deep Learning, Web Semântica, Linked Data) e a Data Science (Text Mining, Big Data, IoT). Está vinculado ao grupo de pesquisa ITI-RG (Inteligência, Tecnologia e Informação - Research Group).

Fábio Mosso Moreira

Universidade Estadual Paulista (UNESP) | fabio.moreira@unesp.br | https://orcid.org/0000-0002-9582-4218 | https://lattes.cnpq.br/1614493890723021

Graduado em Administração de Empresas pela Faculdade de Ciências e Engenharia (UNESP/Tupã). Mestrado concluído em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Doutorado em andamento Programa de Pós-Graduação em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Atua como membro do Grupo de Pesquisa Novas Tecnologias em Informação - GPNTI (UNESP/Marília) e Grupo de Pesquisa Tecnologia de Acesso a Dados -GPTAD (UNESP / Tupã). Editor de Conteúdo da Revista Eletrônica Competências Digitais para Agricultura Familiar (RECoDAF). Possui Habilidade Profissional Técnica em Informática pela ETEC Massuyuki Kawano - Centro Paula Souza de Tupã. Tem experiência profissional na área de Sistemas de Informação ERP para Operações de Logística. Atualmente realiza pesquisas com foco na investigação de temas ligados à utilização de recursos digitais para a disponibilização e acesso a dados governamentais de Políticas Públicas no âmbito dos pequenos produtores.

Fernando de Assis Rodrigues

Universidade Federal do Pará (UFPA) | fernando@rodrigues.pro.br | https://orcid.org/0000-0001-9634-1202 | https://lattes.cnpq.br/5556499513805582

Professor Adjunto no Instituto de Ciências Sociais Aplicadas, lotado na Faculdade de Arquivologia da Universidade Federal do Pará. Doutor e Mestre em Ciência da Informação pela UNESP - Universidade Estadual Paulista. Especialista em Sistemas para Internet pela UNIVEM - Centro Universitário Eurípides de Marília. Bacharel em Sistemas de Informação pela USC - Universidade do Sagrado Coração. Membro dos grupos de pesquisa GPNTI - Novas Tecnologias em Informação e GPTAD - Tecnologias de Acesso a Dados (UNESP), GPIDT - Informação, Dados e Tecnologia (USP) e GPDM - Dados e Metadados (UFSCar). Editor do periódico RECoDAF - Revista Eletrônica Competências Digitas para a Agricultura Familiar. Atua nas áreas da Ciência da Informação e da Ciência da Computação, com ênfase em Engenharia de Software, Bancos de Dados, Tecnologia de Informação e Comunicação e Ambientes Informacionais Digitais, focado principalmente nos seguintes temas: Coleta de Dados, Dados, Acesso a Dados, Serviços de Redes Sociais Online, Linked Data, Linked Open Data, Metadados, Internet Applications, Linguagens de Programação, Banco de Dados e Bases de Dados, Privacidade, Governo eletrônico, Open Government Data e Transparência Pública.

Ricardo César Gonçalves Sant'Ana

Universidade Estadual Paulista (UNESP) | ricardo.santana@unesp.br | https://orcid.org/0000-0003-1387-4519 | https://lattes.cnpq.br/1022660730972320

Professor Associado da Universidade Estadual Paulista - UNESP, Faculdade de Ciências e Engenharias - FCE, Campus de Tupã, em regime de dedicação exclusiva, onde é Presidente da Comissão de Acompanhamento e Avaliação dos cursos de Graduação - CAACG, Coordenador Local do Centro de Estudos e Práticas Pedagógicas - CENEPP e Ouvidor Local. Professor do Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista, Campus de Marília. Graduado em Matemática e Pedagogia, Mestrado em Ciência da Informação (2002), Doutorado em Ciência da Informação (2008) e Livre-Docente em Sistemas de Informações Gerenciais pela UNESP (2017). Possui especializações em Orientação à Objetos (1996) e Gestão de Sistemas de Informação (1998). Parecerista ad hoc de periódicos e de agências de fomento. Lider do Grupo de Pesquisa - Tecnologias de Acesso a Dados (GPTAD) e membro do Grupo de Pesquisa - Novas Tecnologias em Informação GPNTI. Tem experiência na área de Ciência da Computação, atualmente realiza pesquisas com foco em: ciência da informação e tecnologia da informação, investigando temas ligados ao Ciclo de Vida dos Dados, Transparência e ao Fluxo Informacional em Cadeias Produtivas. Atuou como professor na Faccat Faculdade de Ciências Contábeis e Administração de Tupã, onde coordenou curso de Administração com Habilitação em Análise de Sistemas por dez anos e o curso de Licenciatura em Computação. Atuou no setor privado como consultor, integrador e pesquisador de novas tecnologias informacionais de 1988 a 2004.


A construção do repositório de dados da UFPB: A experiência com o dataset de Arboviroses

Páginas: 175 - 186

Autores

Pollianna Marys de Souza e Silva

Universidade Federal da Paraíba (UFPB) | pollianna_marys@hotmail.com | https://orcid.org/0000-0002-1134-6264 | https://lattes.cnpq.br/1404355220123084

Possui graduação em Fisioterapia pelo UNIPÊ/2003; Especialista em Fisioterapia Pneumofuncional pela UGF/2005, em Fisioterapia Pediátrica pelo IMIP/2009, em Fisioterapia em Terapia Intensiva Pediátrica e Neonatal pela ASSOBRAFIR/2015 e em Análise de Situação de Saúde pelo Instituto de Saúde Pública e Patologia vinculada à Fundação Oswaldo Cruz/2016; Mestre em Serviço Social pela UFPB/2008. Atualmente é Fisioterapeuta Efetiva do Estado da Paraíba e desenvolve suas atividades na Maternidade Frei Damião. Doutoranda pela UFPB na Pós Graduação em Ciência da Informação - PPGCI, pesquisando informação em saúde em redes sociais e dados abertos.

Sandra de Albuquerque Siebra

Universidade Federal de Pernambuco (UFPE) | sandra.siebra@gmail.com | https://orcid.org/0000-0002-0078-6918 | https://lattes.cnpq.br/4923627544089379

Possui doutorado em Ciências da Computação pela Universidade Federal de Pernambuco (2007), mestrado em Ciência da Computação pela Universidade Federal de Pernambuco (1998) e graduação no curso de Bacharelado em Ciencia da Computacao pel Universidade Federal da Paraíba. Atualmente é professora adjunta da Universidade Federal de Pernambuco (UFPE), lotada no Departamento de Ciência da Informação (DCI). É professora do Programa de Pós-graduação em Ciência da Informação e pesquisadora do Laboratório LIBER/UFPE. Atua também como colaboradora nos projetos de educação à distância do Instituto Aggeu Magalhães/Fiocruz, no papel de design instrucional. Tem interesse, principalmente, nos seguintes temas: Curadoria Digital, Preservação Digital, Repositórios Digitais, Arquitetura da Informação, Interação Humano-Computador, Design Instrucional, Educação a Distância, Objetos Culturais e Aprendizagem Colaborativa.

Transcrição do Vídeo

Boa a tarde a todos, eu me chamo adriana, estou matriculada no Programa de Pós Graduação em Ciência da Informação, esse trabalho foi feito com a co-autoria da professora Sandra Siebra da Universidade Federal de Pernambuco, o título é a “A construção do repositório de dados da UFPB: A experiência com o dataset de Arboviroses”.

Apesar de que estamos a três dias quase discutindo o acesso aberto inserido nesse contexto, os repositórios institucionais de pesquisa ainda carece de alguns conceitos e definições de autores da área.

O movimento em favor do acesso aberto surgiu a partir da crise dos periódicos e permitiu a democratização do acesso à informação, sendo repositórios digitais uma das primeiras plataformas digitais de acesso aberto.

Esses repositórios estão em ambientes digitais que possibilitam reunir dados e informações de cunho científico, administrativo, técnico, artístico, cultural, entre outros, cuja função principal é promover a visibilidade de seus objetos digitais, preservando-os por meio do gerenciamento de informação como discutida inicialmente.

Os repositórios de dados garantem os princípios de transparência e oferecem um sistema de armazenamento seguro prevendo o ciclo de vida dos dados, além da possibilidade de se ter os dados de pesquisa disponíveis on-line, indexados, documentados, para serem acessados, baixados, e inseridos como contribuição em outras pesquisas.

O objetivo desse trabalho é relatar a experiência de criação do primeiro repositório de dados da UFPB, fazendo uso da plataforma Dataverse, com foco no Dataset de Arboviroses.

Esse repositório de dados surgiu após a realização do projeto de pesquisa da Chama Universal do MCTI/CNPq, número 1 de 2016, intitulado “A Ciência da Informação e a disseminação de informações associadas à epidemia de Zika Vírus: uma investigação baseada na Análise de Redes Sociais”.

Então a motivação para o projeto de pesquisa surgiu após o Brasil vivenciar em 2016 um surto de microcefalia de mães que foram acometidas pela Arbovirose Zika. Porém eu decidi criar o Dataset, a metodologia foi ampliada para Zika e Chikungunya que podem ser chamadas de Arboviroses ou Arbovirus. Isso porque são doenças com graves repercussões para saúde da população e de casos operacionais e epidemiológicos do Ministério da Saúde.

Eu trago essa linha do tempo só para justificar o porquê da gente sair de uma pesquisa que abrangia apenas a Zika e hoje abrange três arboviroses. Inicialmente em 1981 houve o primeiro caso de Dengue confirmado, com diagnóstico laboratorial onde a doença se devia à Região Norte, em 1986 houve uma expansão da doença e o Rio de Janeiro e as faculdade do Nordeste foram atingidas pela Dengue, e o Ministério da Saúde em 2017 com os dados deste ano está prevendo que em 2018 todos os estados brasileiros serão atingidos pelas três doenças.

Os procedimentos metodológicos. A pesquisa que originou este artigo trata-se de uma pesquisa-ação, qualitativa e descritiva, por isso os resultados vão ser bem descritivos, ela é descritiva.

O dataset foco desse relato é um conjunto de dados composto por post da Rede Social Twitter sobre as Arboviroses, que engloba a Zyca, Dengue e Chikungunya. A coleta de dados para compor o dataset foi realizada no período de outubro de 2017 a março de 2018. Os dados foram coletados por um script feito na linguagem de programação Ruby, fazendo uso do API que é disponibilizado pelo próprio Twitter. Os posts coletados foram os que apresentavam uma ou mais das seguintes palavras, tudo em minúscula: zica, zika, zyca, zkv, zikav, dengue, dengue hemorrágica, chikungunya, chicungunya, arbovirose, arbovirose ou microcefalia.

Os posts identificados que foram mais de 1 milhão, foram baixados no formato JasonB e categorizados considerando 3 grupos: Zyka, Dengue e Chikungunya. Por que esses descritores? Através de uma pesquisa informal realizada no Google Acadêmico percebemos que esses descritores continham a maiores referências nessa base de dados.

Em seguida foi criado um banco de dados modelado para as normas do Dataverse onde os dados extraídos foram armazenados. Ressalta-se que, para poder contextualizar e adicionar valor os dados, foi criado um conjunto de metadados descritivos para sintetizar os diferentes contextos em que as mensagens foram utilizadas durante os posts, nas discussões e conversas no Twitter. O Dataverse foi escolhido como plataforma por ser uma das mais popularmente utilizadas para a criação de Repositório de Dados de pesquisa.

Como resultados, o repositório de dados da UFPB foi disponibilizado em 2018, no endereço “dataverse.ufpb.br/dataverse/root. A equipe inicial de pesquisadores em uma primeira etapa precisou se familiarizar como o que é e como funciona repositório de dados, e o que foi sanado com a pesquisa bibliográfica. Posteriormente, sobre a plataforma Dataverse.

Como toda a documentação estava em Inglês, os pesquisadores tiveram o trabalho de traduzir para o português para que houvesse melhor compreensão. Uma vez a plataforma instalada, ela foi populada com o dataset de arboviroses extraído do Twitter.

Para um melhor gerenciamento de acesso e segurança, buscou-se restringir o acesso aos dados a pesquisadores que tivessem feito seu cadastro na plataforma e que possuísse login e senha cadastrados pela plataforma do Gmail. Assim, optou-se por permitir acessar o arquivo restrito após o login e senha, e o credenciamento, durante o download do arquivo do dataset, o sistema deve solicitar a aceitação de um termo de acesso e uso.

O repositório está assim descrito atualmente. No campo dataverse que corresponde ao departamento da revista ou instituição que é proprietária dos dados, no caso em questão o Departamento de CI. No campo de identificação deve conter o parâmetro universal de recursos. No campo categoria deve estar relacionado o levantamento que trabalha com o banco de dados. No campo de afiliação deve ter o nome ou sigla da instituição ou empresa possuidora dos dados, no caso CSA/UFPA. E no caso do campo descrição, um resumo descritivo do que é essa base de dados.

No Dataverse, os campos de metadados são escolhidos para uso em cada conjunto de dados a serem adicionados, então cada dataset possui um conjunto de dados. Considerando a natureza multidisciplinar das pesquisas do Departamento de CI, os pesquisadores optaram pelo uso de campos de metadados gerais, em um padrão que pudesse ser aplicado em dados de diversas áreas do conhecimento. Assim, os principais campos a serem preenchidos no Dataverse são: título, autor, palavras-chave, tópicos da pesquisa, tempo e data da coleta dos dados, e descrição resumida da pesquisa.

A preservação e acesso a longo prazo são garantidos no Dataverse pela identificação persistente, que protege documentos digitais. Os mecanismos que preveem a obsolescência dos dados em relação a migração dos dados para um software mais atualizado e o conjunto de dados pode ser consultado quando for acessado.

Após a descrição dos resultados, as autoras chegaram às seguintes considerações. As arboviroses são enfermidades tropicais endêmicas, que merecem receber atenção em especial os que trabalham na atenção básica e na vigilância epidemiológica, em nível de gestores das esferas federal, estadual e municipal. Essas três doenças em especial, elas incapacitam e matam milhões de brasileiros, então um estudo sobre a disseminação de informações sobre estas enfermidades tanto nos círculos acadêmicos e científicos formais, como nos informais como as Redes Sociais, apresenta inúmeras oportunidades de investigação para os pesquisadores. E nesta vertente é que surge a proposta do Dataset de Arboviroses, contribuindo com dados brutos para o campo científico e para sociedade diante da urgência da temática.

Pode-se investigar, com essa base de dados, o que a população sabe sobre as arboviroses? Que tipo de dúvidas as pessoas possuem? Como a informação tem chegado até a sociedade? Que tipo de queixas são realizadas sobre as doenças em questão? Que localidade mais discutem sobre arboviroses? Além de se poder mapear casos de surtos, mortes e agravantes das doenças por meio dos posts coletados.

Espera-se como trabalhos futuros que os pesquisadores que construíram o dataset possam desenvolver trabalhos usando o banco de dados, e outros pesquisadores que estejam cadastrados na plataforma também contribuam com a pesquisa. Essas foram algumas referências utilizadas, obrigado.


Apoio

Universidade Federal da Paraíba (UFPB)Universidade Estadual Paulista (UNESP)Universidade Federal de Santa Catarina (UFSC)Revista Eletrônica Competências Digitais para Agricultura Familiar (RECoDAF)Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)