Information, Data and Technology

Guilherme Ataíde Dias

Federal University of Paraíba (UFPB) | guilhermeataide@ccsa.ufpb.br | https://orcid.org/0000-0001-6576-0017 | https://lattes.cnpq.br/9553707435669429

Undergraduate in Computer Science from the Federal University of Paraíba UFPB Campus II (1990), Bachelor in Law by the University Center of João Pessoa UNIPE (2010), Master in Organization & Management by Central Connecticut State University? CCSU (1995), PhD in Information Science (Communication Sciences) at the University of São Paulo? USP (2003) and Post-Doctor by UNESP (2011). He is currently Associate Professor III at the Federal University of Paraíba, where he holds a degree in Information Science. He is involved with Post-Graduation through the Post-Graduate Program in Information Science and Postgraduate Program in Administration, both of UFPB. Has research interest in the following themes: Knowledge Representation; Information Architecture; Information security; Information and Communication Technologies; Health Information; Social networks; Free software; Law, Ethics and Intellectual Property in Cyberspace; Scientific Data Management; Legal Information; He is currently Research Productivity Scholar (PQ) at CNPq.

Moisés Lima Dutra

Federal University of Santa Catarina (UFSC) | moises.dutra@ufsc.br | https://orcid.org/0000-0003-1000-5553 | https://lattes.cnpq.br/1973469817655034

Professor, Federal University of Santa Catarina, Department of Information Science. PhD in Computing from the University of Lyon 1, France (2009). Master in Electrical Engineering, subarea Automação e Sistemas (2005) and Bachelor in Computing (1998) from the Federal University of Santa Catarina. His current lines of research are related to Applied Artificial Intelligence (Machine Learning, Deep Learning, Semantic Web, Linked Data) and Data Science (Big Data, IoT). It is linked to the research group ITI-RG (Intelligence, Technology and Information - Research Group).

Fábio Mosso Moreira

São Paulo State University (UNESP) | fabio.moreira@unesp.br | https://orcid.org/0000-0002-9582-4218 | https://lattes.cnpq.br/1614493890723021

Undergraduate degree in Business Administration from the Faculty of Sciences and Engineering (UNESP / Tupã). Master degree in Information Science - (UNESP / Marília). PhD student in the Graduate Program in Information Science (UNESP / Marília). Member of the Research Group - GPNTI (UNESP / Marília) and GPTAD (UNESP / Tupã). Collaborator of the Project Digital Skills for Family Farming (CoDAF). Content editor of the Electronic Journal Digital Skills for Family Farming (RECoDAF). Professional Technical Skill in Informatics from ETEC Massuyuki Kawano - Centro Paula Souza de Tupã. Professional experience in the ERP Information Systems for Logistics Operations. Works with research in Information Science, studying the use of digital resources for access to government data of Public Policies in the context of the small farmer.

Fernando de Assis Rodrigues

Federal University of Pará (UFPA) | fernando@rodrigues.pro.br | https://orcid.org/0000-0001-9634-1202 | https://lattes.cnpq.br/5556499513805582

Professor at Federal University of Pará. Ph.D. and M.S. in Information Science, Post-bachelor in Internet Systems and Bachelor of Science in Information Systems. Most of his experience is based on works developed as a Full Stack Developer and Database administrator, especially with Python, Java and PHP programming languages, as well as MySQL, MariaDB, SQLite3 and PostgreSQL databases. Also, he lectured classes related to the context of Computer Science to undergraduate and graduate students at UNESP. Currently, He workd as a postdoc researcher at UNESP labs, working in data studies.

Ricardo César Gonçalves Sant'Ana

São Paulo State University (UNESP) | ricardo.santana@unesp.br | https://orcid.org/0000-0003-1387-4519 | https://lattes.cnpq.br/1022660730972320

Associate Professor at the Paulista State University - UNESP, Faculty of Sciences and Engineering - FCE, Campus de Tupã, on an exclusive dedication, where he is Chairman of the Monitoring and Evaluation Committee of the Graduate Courses - CAACG, Local Coordinator of the Center for Studies and Pedagogical Practices - CENEPP and Local Ombudsman. Professor of the Post-Graduate Program in Information Science of the Paulista State University, Marília Campus. Graduated in Mathematics and Pedagogy, Master in Information Science (2002), Doctorate in Information Science (2008) and Freelance in Management Information Systems by UNESP (2017). He has specialized in Object Orientation (1996) and Management of Information Systems (1998). Ad hoc advisor of periodicals and development agencies. Member of the Research Group - New Technologies in Information GPNTI-UNESP. Has experience in the area of ??Computer Science, currently conducts research focused on: information science and information technology, investigating issues related to the Data Life Cycle, Transparency and Information Flow in Productive Chains. He worked as a professor at Faccat Faculdade de Ciências Contábeis e Administração de Tupã, where he coordinated a course of Administration with Qualification in Systems Analysis for ten years and the course of Licenciatura in Computing. He worked in the private sector as a consultant, integrator and researcher of new information technologies from 1988 to 2004.


Organizators

Guilherme Ataíde Dias

Federal University of Paraíba (UFPB) | guilhermeataide@ccsa.ufpb.br | https://orcid.org/0000-0001-6576-0017 | https://lattes.cnpq.br/9553707435669429

Undergraduate in Computer Science from the Federal University of Paraíba UFPB Campus II (1990), Bachelor in Law by the University Center of João Pessoa UNIPE (2010), Master in Organization & Management by Central Connecticut State University? CCSU (1995), PhD in Information Science (Communication Sciences) at the University of São Paulo? USP (2003) and Post-Doctor by UNESP (2011). He is currently Associate Professor III at the Federal University of Paraíba, where he holds a degree in Information Science. He is involved with Post-Graduation through the Post-Graduate Program in Information Science and Postgraduate Program in Administration, both of UFPB. Has research interest in the following themes: Knowledge Representation; Information Architecture; Information security; Information and Communication Technologies; Health Information; Social networks; Free software; Law, Ethics and Intellectual Property in Cyberspace; Scientific Data Management; Legal Information; He is currently Research Productivity Scholar (PQ) at CNPq.

Moisés Lima Dutra

Federal University of Santa Catarina (UFSC) | moises.dutra@ufsc.br | https://orcid.org/0000-0003-1000-5553 | https://lattes.cnpq.br/1973469817655034

Professor, Federal University of Santa Catarina, Department of Information Science. PhD in Computing from the University of Lyon 1, France (2009). Master in Electrical Engineering, subarea Automação e Sistemas (2005) and Bachelor in Computing (1998) from the Federal University of Santa Catarina. His current lines of research are related to Applied Artificial Intelligence (Machine Learning, Deep Learning, Semantic Web, Linked Data) and Data Science (Big Data, IoT). It is linked to the research group ITI-RG (Intelligence, Technology and Information - Research Group).

Fábio Mosso Moreira

São Paulo State University (UNESP) | fabio.moreira@unesp.br | https://orcid.org/0000-0002-9582-4218 | https://lattes.cnpq.br/1614493890723021

Undergraduate degree in Business Administration from the Faculty of Sciences and Engineering (UNESP / Tupã). Master degree in Information Science - (UNESP / Marília). PhD student in the Graduate Program in Information Science (UNESP / Marília). Member of the Research Group - GPNTI (UNESP / Marília) and GPTAD (UNESP / Tupã). Collaborator of the Project Digital Skills for Family Farming (CoDAF). Content editor of the Electronic Journal Digital Skills for Family Farming (RECoDAF). Professional Technical Skill in Informatics from ETEC Massuyuki Kawano - Centro Paula Souza de Tupã. Professional experience in the ERP Information Systems for Logistics Operations. Works with research in Information Science, studying the use of digital resources for access to government data of Public Policies in the context of the small farmer.

Fernando de Assis Rodrigues

Federal University of Pará (UFPA) | fernando@rodrigues.pro.br | https://orcid.org/0000-0001-9634-1202 | https://lattes.cnpq.br/5556499513805582

Professor at Federal University of Pará. Ph.D. and M.S. in Information Science, Post-bachelor in Internet Systems and Bachelor of Science in Information Systems. Most of his experience is based on works developed as a Full Stack Developer and Database administrator, especially with Python, Java and PHP programming languages, as well as MySQL, MariaDB, SQLite3 and PostgreSQL databases. Also, he lectured classes related to the context of Computer Science to undergraduate and graduate students at UNESP. Currently, He workd as a postdoc researcher at UNESP labs, working in data studies.

Ricardo César Gonçalves Sant'Ana

São Paulo State University (UNESP) | ricardo.santana@unesp.br | https://orcid.org/0000-0003-1387-4519 | https://lattes.cnpq.br/1022660730972320

Associate Professor at the Paulista State University - UNESP, Faculty of Sciences and Engineering - FCE, Campus de Tupã, on an exclusive dedication, where he is Chairman of the Monitoring and Evaluation Committee of the Graduate Courses - CAACG, Local Coordinator of the Center for Studies and Pedagogical Practices - CENEPP and Local Ombudsman. Professor of the Post-Graduate Program in Information Science of the Paulista State University, Marília Campus. Graduated in Mathematics and Pedagogy, Master in Information Science (2002), Doctorate in Information Science (2008) and Freelance in Management Information Systems by UNESP (2017). He has specialized in Object Orientation (1996) and Management of Information Systems (1998). Ad hoc advisor of periodicals and development agencies. Member of the Research Group - New Technologies in Information GPNTI-UNESP. Has experience in the area of ??Computer Science, currently conducts research focused on: information science and information technology, investigating issues related to the Data Life Cycle, Transparency and Information Flow in Productive Chains. He worked as a professor at Faccat Faculdade de Ciências Contábeis e Administração de Tupã, where he coordinated a course of Administration with Qualification in Systems Analysis for ten years and the course of Licenciatura in Computing. He worked in the private sector as a consultant, integrator and researcher of new information technologies from 1988 to 2004.


The construction of the data repository of the UFPB: The experience with the dataset of Arboviroses

Pages: 175 - 186

Authors

Pollianna Marys de Souza e Silva

Federal University of Paraíba (UFPB) | pollianna_marys@hotmail.com | https://orcid.org/0000-0002-1134-6264 | https://lattes.cnpq.br/1404355220123084

Graduation in Physiotherapy Pneumofuncional by UGF / 2005, in Pediatric Physiotherapy by IMIP / 2009, in Physiotherapy in Pediatric and Neonatal Intensive Therapy by ASSOBRAFIR / 2015 and in Health Situation Analysis by the Institute of Public Health and Pathology linked to Fundação Oswaldo Cruz / 2016; Master of Social Work by UFPB / 2008. She is currently an Effective Physiotherapist of the State of Paraíba and develops her activities at the Materiidade Frei Damião. PhD student at UFPB in the Graduate Program in Information Science - PPGCI, researching health information in social networks and open data.

Sandra de Albuquerque Siebra

Federal University of Pernambuco (UFPE) | sandra.siebra@gmail.com | https://orcid.org/0000-0002-0078-6918 | https://lattes.cnpq.br/4923627544089379

Ph.D. in Computer Science from the Federal University of Pernambuco (2007), a Master's Degree in Computer Science from the Federal University of Pernambuco (1998) and a Bachelor's degree in Computer Science from the Federal University of Paraíba. She is currently an adjunct professor at the Federal University of Pernambuco (UFPE), which is part of the Information Science Department (DCI). She is a professor of the Graduate Program in Information Science and a researcher at LIBER / UFPE Laboratory. She also works as a collaborator in the distance education projects of the Aggeu Magalhães / Fiocruz Institute, in the role of instructional design. It is mainly interested in the following topics: Digital Curatorship, Digital Preservation, Digital Repositories, Information Architecture, Human-Computer Interaction, Instructional Design, Distance Education, Cultural Objects and Collaborative Learning.

Video Transcription

Boa a tarde a todos, eu me chamo adriana, estou matriculada no Programa de Pós Graduação em Ciência da Informação, esse trabalho foi feito com a co-autoria da professora Sandra Siebra da Universidade Federal de Pernambuco, o título é a “A construção do repositório de dados da UFPB: A experiência com o dataset de Arboviroses”.

Apesar de que estamos a três dias quase discutindo o acesso aberto inserido nesse contexto, os repositórios institucionais de pesquisa ainda carece de alguns conceitos e definições de autores da área.

O movimento em favor do acesso aberto surgiu a partir da crise dos periódicos e permitiu a democratização do acesso à informação, sendo repositórios digitais uma das primeiras plataformas digitais de acesso aberto.

Esses repositórios estão em ambientes digitais que possibilitam reunir dados e informações de cunho científico, administrativo, técnico, artístico, cultural, entre outros, cuja função principal é promover a visibilidade de seus objetos digitais, preservando-os por meio do gerenciamento de informação como discutida inicialmente.

Os repositórios de dados garantem os princípios de transparência e oferecem um sistema de armazenamento seguro prevendo o ciclo de vida dos dados, além da possibilidade de se ter os dados de pesquisa disponíveis on-line, indexados, documentados, para serem acessados, baixados, e inseridos como contribuição em outras pesquisas.

O objetivo desse trabalho é relatar a experiência de criação do primeiro repositório de dados da UFPB, fazendo uso da plataforma Dataverse, com foco no Dataset de Arboviroses.

Esse repositório de dados surgiu após a realização do projeto de pesquisa da Chama Universal do MCTI/CNPq, número 1 de 2016, intitulado “A Ciência da Informação e a disseminação de informações associadas à epidemia de Zika Vírus: uma investigação baseada na Análise de Redes Sociais”.

Então a motivação para o projeto de pesquisa surgiu após o Brasil vivenciar em 2016 um surto de microcefalia de mães que foram acometidas pela Arbovirose Zika. Porém eu decidi criar o Dataset, a metodologia foi ampliada para Zika e Chikungunya que podem ser chamadas de Arboviroses ou Arbovirus. Isso porque são doenças com graves repercussões para saúde da população e de casos operacionais e epidemiológicos do Ministério da Saúde.

Eu trago essa linha do tempo só para justificar o porquê da gente sair de uma pesquisa que abrangia apenas a Zika e hoje abrange três arboviroses. Inicialmente em 1981 houve o primeiro caso de Dengue confirmado, com diagnóstico laboratorial onde a doença se devia à Região Norte, em 1986 houve uma expansão da doença e o Rio de Janeiro e as faculdade do Nordeste foram atingidas pela Dengue, e o Ministério da Saúde em 2017 com os dados deste ano está prevendo que em 2018 todos os estados brasileiros serão atingidos pelas três doenças.

Os procedimentos metodológicos. A pesquisa que originou este artigo trata-se de uma pesquisa-ação, qualitativa e descritiva, por isso os resultados vão ser bem descritivos, ela é descritiva.

O dataset foco desse relato é um conjunto de dados composto por post da Rede Social Twitter sobre as Arboviroses, que engloba a Zyca, Dengue e Chikungunya. A coleta de dados para compor o dataset foi realizada no período de outubro de 2017 a março de 2018. Os dados foram coletados por um script feito na linguagem de programação Ruby, fazendo uso do API que é disponibilizado pelo próprio Twitter. Os posts coletados foram os que apresentavam uma ou mais das seguintes palavras, tudo em minúscula: zica, zika, zyca, zkv, zikav, dengue, dengue hemorrágica, chikungunya, chicungunya, arbovirose, arbovirose ou microcefalia.

Os posts identificados que foram mais de 1 milhão, foram baixados no formato JasonB e categorizados considerando 3 grupos: Zyka, Dengue e Chikungunya. Por que esses descritores? Através de uma pesquisa informal realizada no Google Acadêmico percebemos que esses descritores continham a maiores referências nessa base de dados.

Em seguida foi criado um banco de dados modelado para as normas do Dataverse onde os dados extraídos foram armazenados. Ressalta-se que, para poder contextualizar e adicionar valor os dados, foi criado um conjunto de metadados descritivos para sintetizar os diferentes contextos em que as mensagens foram utilizadas durante os posts, nas discussões e conversas no Twitter. O Dataverse foi escolhido como plataforma por ser uma das mais popularmente utilizadas para a criação de Repositório de Dados de pesquisa.

Como resultados, o repositório de dados da UFPB foi disponibilizado em 2018, no endereço “dataverse.ufpb.br/dataverse/root. A equipe inicial de pesquisadores em uma primeira etapa precisou se familiarizar como o que é e como funciona repositório de dados, e o que foi sanado com a pesquisa bibliográfica. Posteriormente, sobre a plataforma Dataverse.

Como toda a documentação estava em Inglês, os pesquisadores tiveram o trabalho de traduzir para o português para que houvesse melhor compreensão. Uma vez a plataforma instalada, ela foi populada com o dataset de arboviroses extraído do Twitter.

Para um melhor gerenciamento de acesso e segurança, buscou-se restringir o acesso aos dados a pesquisadores que tivessem feito seu cadastro na plataforma e que possuísse login e senha cadastrados pela plataforma do Gmail. Assim, optou-se por permitir acessar o arquivo restrito após o login e senha, e o credenciamento, durante o download do arquivo do dataset, o sistema deve solicitar a aceitação de um termo de acesso e uso.

O repositório está assim descrito atualmente. No campo dataverse que corresponde ao departamento da revista ou instituição que é proprietária dos dados, no caso em questão o Departamento de CI. No campo de identificação deve conter o parâmetro universal de recursos. No campo categoria deve estar relacionado o levantamento que trabalha com o banco de dados. No campo de afiliação deve ter o nome ou sigla da instituição ou empresa possuidora dos dados, no caso CSA/UFPA. E no caso do campo descrição, um resumo descritivo do que é essa base de dados.

No Dataverse, os campos de metadados são escolhidos para uso em cada conjunto de dados a serem adicionados, então cada dataset possui um conjunto de dados. Considerando a natureza multidisciplinar das pesquisas do Departamento de CI, os pesquisadores optaram pelo uso de campos de metadados gerais, em um padrão que pudesse ser aplicado em dados de diversas áreas do conhecimento. Assim, os principais campos a serem preenchidos no Dataverse são: título, autor, palavras-chave, tópicos da pesquisa, tempo e data da coleta dos dados, e descrição resumida da pesquisa.

A preservação e acesso a longo prazo são garantidos no Dataverse pela identificação persistente, que protege documentos digitais. Os mecanismos que preveem a obsolescência dos dados em relação a migração dos dados para um software mais atualizado e o conjunto de dados pode ser consultado quando for acessado.

Após a descrição dos resultados, as autoras chegaram às seguintes considerações. As arboviroses são enfermidades tropicais endêmicas, que merecem receber atenção em especial os que trabalham na atenção básica e na vigilância epidemiológica, em nível de gestores das esferas federal, estadual e municipal. Essas três doenças em especial, elas incapacitam e matam milhões de brasileiros, então um estudo sobre a disseminação de informações sobre estas enfermidades tanto nos círculos acadêmicos e científicos formais, como nos informais como as Redes Sociais, apresenta inúmeras oportunidades de investigação para os pesquisadores. E nesta vertente é que surge a proposta do Dataset de Arboviroses, contribuindo com dados brutos para o campo científico e para sociedade diante da urgência da temática.

Pode-se investigar, com essa base de dados, o que a população sabe sobre as arboviroses? Que tipo de dúvidas as pessoas possuem? Como a informação tem chegado até a sociedade? Que tipo de queixas são realizadas sobre as doenças em questão? Que localidade mais discutem sobre arboviroses? Além de se poder mapear casos de surtos, mortes e agravantes das doenças por meio dos posts coletados.

Espera-se como trabalhos futuros que os pesquisadores que construíram o dataset possam desenvolver trabalhos usando o banco de dados, e outros pesquisadores que estejam cadastrados na plataforma também contribuam com a pesquisa. Essas foram algumas referências utilizadas, obrigado.


Support

Federal University of Paraíba (UFPB)São Paulo State University (UNESP)Federal University of Santa Catarina (UFSC)Electronic Journal Digital Skills for Family Farming (RECoDAF)National Council for Scientific and Technological Development (CNPq)