Information, Data and Technology

Guilherme Ataíde Dias

Federal University of Paraíba (UFPB) | guilhermeataide@ccsa.ufpb.br | https://orcid.org/0000-0001-6576-0017 | https://lattes.cnpq.br/9553707435669429

Undergraduate in Computer Science from the Federal University of Paraíba UFPB Campus II (1990), Bachelor in Law by the University Center of João Pessoa UNIPE (2010), Master in Organization & Management by Central Connecticut State University? CCSU (1995), PhD in Information Science (Communication Sciences) at the University of São Paulo? USP (2003) and Post-Doctor by UNESP (2011). He is currently Associate Professor III at the Federal University of Paraíba, where he holds a degree in Information Science. He is involved with Post-Graduation through the Post-Graduate Program in Information Science and Postgraduate Program in Administration, both of UFPB. Has research interest in the following themes: Knowledge Representation; Information Architecture; Information security; Information and Communication Technologies; Health Information; Social networks; Free software; Law, Ethics and Intellectual Property in Cyberspace; Scientific Data Management; Legal Information; He is currently Research Productivity Scholar (PQ) at CNPq.

Moisés Lima Dutra

Federal University of Santa Catarina (UFSC) | moises.dutra@ufsc.br | https://orcid.org/0000-0003-1000-5553 | https://lattes.cnpq.br/1973469817655034

Professor, Federal University of Santa Catarina, Department of Information Science. PhD in Computing from the University of Lyon 1, France (2009). Master in Electrical Engineering, subarea Automação e Sistemas (2005) and Bachelor in Computing (1998) from the Federal University of Santa Catarina. His current lines of research are related to Applied Artificial Intelligence (Machine Learning, Deep Learning, Semantic Web, Linked Data) and Data Science (Big Data, IoT). It is linked to the research group ITI-RG (Intelligence, Technology and Information - Research Group).

Fábio Mosso Moreira

São Paulo State University (UNESP) | fabio.moreira@unesp.br | https://orcid.org/0000-0002-9582-4218 | https://lattes.cnpq.br/1614493890723021

Undergraduate degree in Business Administration from the Faculty of Sciences and Engineering (UNESP / Tupã). Master degree in Information Science - (UNESP / Marília). PhD student in the Graduate Program in Information Science (UNESP / Marília). Member of the Research Group - GPNTI (UNESP / Marília) and GPTAD (UNESP / Tupã). Collaborator of the Project Digital Skills for Family Farming (CoDAF). Content editor of the Electronic Journal Digital Skills for Family Farming (RECoDAF). Professional Technical Skill in Informatics from ETEC Massuyuki Kawano - Centro Paula Souza de Tupã. Professional experience in the ERP Information Systems for Logistics Operations. Works with research in Information Science, studying the use of digital resources for access to government data of Public Policies in the context of the small farmer.

Fernando de Assis Rodrigues

Federal University of Pará (UFPA) | fernando@rodrigues.pro.br | https://orcid.org/0000-0001-9634-1202 | https://lattes.cnpq.br/5556499513805582

Professor at Federal University of Pará. Ph.D. and M.S. in Information Science, Post-bachelor in Internet Systems and Bachelor of Science in Information Systems. Most of his experience is based on works developed as a Full Stack Developer and Database administrator, especially with Python, Java and PHP programming languages, as well as MySQL, MariaDB, SQLite3 and PostgreSQL databases. Also, he lectured classes related to the context of Computer Science to undergraduate and graduate students at UNESP. Currently, He workd as a postdoc researcher at UNESP labs, working in data studies.

Ricardo César Gonçalves Sant'Ana

São Paulo State University (UNESP) | ricardo.santana@unesp.br | https://orcid.org/0000-0003-1387-4519 | https://lattes.cnpq.br/1022660730972320

Associate Professor at the Paulista State University - UNESP, Faculty of Sciences and Engineering - FCE, Campus de Tupã, on an exclusive dedication, where he is Chairman of the Monitoring and Evaluation Committee of the Graduate Courses - CAACG, Local Coordinator of the Center for Studies and Pedagogical Practices - CENEPP and Local Ombudsman. Professor of the Post-Graduate Program in Information Science of the Paulista State University, Marília Campus. Graduated in Mathematics and Pedagogy, Master in Information Science (2002), Doctorate in Information Science (2008) and Freelance in Management Information Systems by UNESP (2017). He has specialized in Object Orientation (1996) and Management of Information Systems (1998). Ad hoc advisor of periodicals and development agencies. Member of the Research Group - New Technologies in Information GPNTI-UNESP. Has experience in the area of ??Computer Science, currently conducts research focused on: information science and information technology, investigating issues related to the Data Life Cycle, Transparency and Information Flow in Productive Chains. He worked as a professor at Faccat Faculdade de Ciências Contábeis e Administração de Tupã, where he coordinated a course of Administration with Qualification in Systems Analysis for ten years and the course of Licenciatura in Computing. He worked in the private sector as a consultant, integrator and researcher of new information technologies from 1988 to 2004.


Organizators

Guilherme Ataíde Dias

Federal University of Paraíba (UFPB) | guilhermeataide@ccsa.ufpb.br | https://orcid.org/0000-0001-6576-0017 | https://lattes.cnpq.br/9553707435669429

Undergraduate in Computer Science from the Federal University of Paraíba UFPB Campus II (1990), Bachelor in Law by the University Center of João Pessoa UNIPE (2010), Master in Organization & Management by Central Connecticut State University? CCSU (1995), PhD in Information Science (Communication Sciences) at the University of São Paulo? USP (2003) and Post-Doctor by UNESP (2011). He is currently Associate Professor III at the Federal University of Paraíba, where he holds a degree in Information Science. He is involved with Post-Graduation through the Post-Graduate Program in Information Science and Postgraduate Program in Administration, both of UFPB. Has research interest in the following themes: Knowledge Representation; Information Architecture; Information security; Information and Communication Technologies; Health Information; Social networks; Free software; Law, Ethics and Intellectual Property in Cyberspace; Scientific Data Management; Legal Information; He is currently Research Productivity Scholar (PQ) at CNPq.

Moisés Lima Dutra

Federal University of Santa Catarina (UFSC) | moises.dutra@ufsc.br | https://orcid.org/0000-0003-1000-5553 | https://lattes.cnpq.br/1973469817655034

Professor, Federal University of Santa Catarina, Department of Information Science. PhD in Computing from the University of Lyon 1, France (2009). Master in Electrical Engineering, subarea Automação e Sistemas (2005) and Bachelor in Computing (1998) from the Federal University of Santa Catarina. His current lines of research are related to Applied Artificial Intelligence (Machine Learning, Deep Learning, Semantic Web, Linked Data) and Data Science (Big Data, IoT). It is linked to the research group ITI-RG (Intelligence, Technology and Information - Research Group).

Fábio Mosso Moreira

São Paulo State University (UNESP) | fabio.moreira@unesp.br | https://orcid.org/0000-0002-9582-4218 | https://lattes.cnpq.br/1614493890723021

Undergraduate degree in Business Administration from the Faculty of Sciences and Engineering (UNESP / Tupã). Master degree in Information Science - (UNESP / Marília). PhD student in the Graduate Program in Information Science (UNESP / Marília). Member of the Research Group - GPNTI (UNESP / Marília) and GPTAD (UNESP / Tupã). Collaborator of the Project Digital Skills for Family Farming (CoDAF). Content editor of the Electronic Journal Digital Skills for Family Farming (RECoDAF). Professional Technical Skill in Informatics from ETEC Massuyuki Kawano - Centro Paula Souza de Tupã. Professional experience in the ERP Information Systems for Logistics Operations. Works with research in Information Science, studying the use of digital resources for access to government data of Public Policies in the context of the small farmer.

Fernando de Assis Rodrigues

Federal University of Pará (UFPA) | fernando@rodrigues.pro.br | https://orcid.org/0000-0001-9634-1202 | https://lattes.cnpq.br/5556499513805582

Professor at Federal University of Pará. Ph.D. and M.S. in Information Science, Post-bachelor in Internet Systems and Bachelor of Science in Information Systems. Most of his experience is based on works developed as a Full Stack Developer and Database administrator, especially with Python, Java and PHP programming languages, as well as MySQL, MariaDB, SQLite3 and PostgreSQL databases. Also, he lectured classes related to the context of Computer Science to undergraduate and graduate students at UNESP. Currently, He workd as a postdoc researcher at UNESP labs, working in data studies.

Ricardo César Gonçalves Sant'Ana

São Paulo State University (UNESP) | ricardo.santana@unesp.br | https://orcid.org/0000-0003-1387-4519 | https://lattes.cnpq.br/1022660730972320

Associate Professor at the Paulista State University - UNESP, Faculty of Sciences and Engineering - FCE, Campus de Tupã, on an exclusive dedication, where he is Chairman of the Monitoring and Evaluation Committee of the Graduate Courses - CAACG, Local Coordinator of the Center for Studies and Pedagogical Practices - CENEPP and Local Ombudsman. Professor of the Post-Graduate Program in Information Science of the Paulista State University, Marília Campus. Graduated in Mathematics and Pedagogy, Master in Information Science (2002), Doctorate in Information Science (2008) and Freelance in Management Information Systems by UNESP (2017). He has specialized in Object Orientation (1996) and Management of Information Systems (1998). Ad hoc advisor of periodicals and development agencies. Member of the Research Group - New Technologies in Information GPNTI-UNESP. Has experience in the area of ??Computer Science, currently conducts research focused on: information science and information technology, investigating issues related to the Data Life Cycle, Transparency and Information Flow in Productive Chains. He worked as a professor at Faccat Faculdade de Ciências Contábeis e Administração de Tupã, where he coordinated a course of Administration with Qualification in Systems Analysis for ten years and the course of Licenciatura in Computing. He worked in the private sector as a consultant, integrator and researcher of new information technologies from 1988 to 2004.


Web Scraping in ResearchID: proposal to the monitoring system of H-index of the researchers in Brazil

Pages: 240 - 256

Authors

Alexandre Ribas Semeler

Federal University of Rio Grande do Sul (UFRGS) | alexandre.semeler@ufrgs.br | https://orcid.org/0000-0002-8036-4271 | https://lattes.cnpq.br/1564154234554393

Data Librarian at the Institute of Geosciences of the Federal University of Rio Grande do Sul (UFRGS), Porto Alegre, Brazil. He is a graduate in Librarianship from UFRGS (2003-2007), and holds a Master in Communication and Information from UFRGS (2008-2010). He is a Doctor in Information Science at the Federal University of Santa Catarina(UFSC) (2015-2017). He is currently (2018) a postdoctoral student in Information Science at the Federal University of Santa Catarina, Florianópolis, Brazil. His areas of research interest include: interdisciplinary topics in information science, e-science, data science, and data librarianship.

Adilson Luiz Pinto

Federal University of Santa Catarina (UFSC) | adilson.pinto@ufsc.br | https://orcid.org/0000-0002-4142-2061 | https://lattes.cnpq.br/4767432940301118

Advisor of Master and Doctorate since 2011. Coordinator of the Post-Graduation Program in Information Science of the Federal University of Santa Catarina - UFSC (management 2017-2019); Sub-Coordinator of the Post-Graduate Program in Information Science, Federal University of Santa Catarina - UFSC (management 2014-2016); Coordinator of Research and Extension of the Federal University of Santa Catarina - UFSC (management 2011-2012). Associate Professor II of the Department of Information Science of UFSC (Graduate in Library Science / Archivology / Information Science and Master / Doctorate in Information Science), Visiting Professor: (i) University of Panama, (ii) National University of the Republic of Uruguay , (iii) Universidad Nacional de Cuyo, (iv) Carlos III University of Madrid, (v) Montpellier III University, (vi) State University of Londrina. Qualifications: Graduated in Librarianship from PUC-Campinas (2000), Master in Information Science from PUC-Campinas (2004) and Audiovisual Documentation from Carlos III University of Madrid (2006); Doctor in Documentation from the Carlos III University of Madrid (2007). Member of the Research Group Intelligence, Technology and Information - Research Group (ITI-RG); Member of the Editorial Board of the magazines (i) The Information Professional; (ii) Hipertext.net; (iii) Bulletin Millares Carlo; (iv) Inter-American Journal of Library Science; (Iii) RBBD Magazine, (iv) Enancib in GT7 and GT8, (v) InCID magazine, (vi) The Information Professional, (vii) 3rd, (Vii) LiiNC in Journal, (ix) CBBD, (x) SNBU e (xi) Biblioetcas: annals of research. Specialist in Information Science, with emphasis on: Metrics Studies of Information (bibliometrics, cienciometry, informetria, librametrics, webometry and archivometry), E-Science (automated mining of data), Information Visualization (Social Network Analysis, Text Visualization, Process Modeling, Time View, Data Geolocation and Clustering).

Arthur Longoni Oliveira

Federal University of Rio Grande do Sul (UFRGS) | arthur.holiver@gmail.com | https://lattes.cnpq.br/7483194676718999

Graduation in Computer Science at the Informatics Institute of the Federal University of Rio Grande do Sul (2013-current). Junior Data Scientist. Acting in the following areas: Information Science, Object Oriented Programming, Parallel Computing Applied to Collection, Analysis and Visualization of Scientific Data.

Video Transcription

Bom, primeiro eu gostaria de falar que este trabalho inicialmente, bom sou pós-doutorando do Programa de Pós-Graduação de Ciência da Informação da UFSC, sou bibliotecário do instituto de geociência da UFSC, e esse trabalho é uma aplicação prática de um serviço que eu estou propondo para minha universidade para que ele componha uma parte de um documento diário para avaliação de docentes que vão se candidatar para progressão de titular e para alinhar e comparar programas de pós-graduação. No entanto eu não posso utilizar os dados porque é um trabalho que está sendo desenvolvido, eu vou falar sobre o índice nacional, o índice H.

A primeira parte a gente tem uma ferramenta desenvolvida pela Thompson que oferece a versão do índice H para todo mundo, e o Brasil é o país que mais utiliza a ferramenta para gerar o Índice H, muitas vezes para instituições, para escolas, mas também para pessoas que é o objetivo da ferramenta, são 108 mil pesquisadores brasileiros que utilizam a ferramenta.

O CNPQ adota esta ferramenta para validar o índice H ou fator H como o CNPQ chama, desses pesquisadores brasileiros, geralmente esse fator ele é mais válido para pessoas que têm mais tempo, para pesquisadores no caso, mas ela fica dentro da academia e o CNPQ usa isso para pautar a distribuição de bolsa de produtividade e para distribuição de fomento para projeto de pesquisa. Na área de geociência que é a área que eu tenho maior conhecimento.

Enfim, essa é a ferramenta adotada pelo CNPQ, ela fornece essas informações sobre a produção e o impacto científico que ela tem internacionalmente, é um indicador usado para medir a internacionalização da produção científica. Então qual é o objetivo do trabalho? Desenvolver uma forma automatizada para extrair esse índice H dos pesquisadores brasileiros, fazendo isso com a linguagem de programação Python e identificar esse índice H em uma frente de pesquisa nacional, quais são os pesquisadores brasileiros que possuem maior impacto em produção científica na base de dados da Thompson.

Como foi então desenvolvido esse trabalho? A pesquisa foi uma pesquisa exploratória, descritiva dos dados, de natureza quantitativa, o corpus de estudo foram 108 mil id’s, identificadores, ela foi feita totalmente automatizada, foi utilizado o scraping para a raspagem dos dados, como é uma base proprietária ela não permite que a gente fique raspando ela em looping, tem que ser com calma, tempo de 10 segundos, uma navegação de humano, então para automatizar esta navegação eu utilizei algumas bibliotecas de Python, uma biblioteca para raspagem que se chama BeautifulSoup que é para fazer o scraping, e o Selenium para poder fazer essa automatização e não ficar tão agressivo e a base proibir esse acesso aos dados.

E também um multiprocesso que é para poder, como é extraído muitos dados dela, muito tempo, a coleta sem a volumização dos dados levou em média 14 dias, é muito tempo, dividindo o processo em oito processadores da máquina, deu para reduzir o tempo da coleta para quatro dias, o que acontece essa coleta se modifica, os dados se modificam, as pessoas inserem mais informações, mais produções, e isso modifica o valor do índice, modifica a lista de publicações, então o que acontece, tem um dispositivo para falhas, então quando quebra a raspagem, quando se encerra a coleta o script retoma do último tempo válido, da última coleta válida, comparar a coleta que ele já tem e verifica se ela se modificou e reinicia-se, então ele coleta outros arquivos diferentes, conclui a coleta e salva em um novo arquivo, a onde ele vai fazer a soma das publicações e identificar , o nome, tem nome de pessoas, primeiramente.

O código está disponível no Github, o código e a primeira extração feita em setembro, ela já se modificou de 108 mil já são 108.900 id’s,. Então eles abrem e coletam as métricas de informação, a quantidade de publicação, as publicações com citação e o índice H, as publicações com citação, são publicações com citação na Web of Science, quer dizer que elas não são aquelas publicações no Google, aquelas citações em outras bases de dados, somente as publicações que estão no Science Citation Index na Thompson.

Nessa coleta maior eu identifiquei a frente de pesquisa nacional, quais são os pesquisadores com pesquisa de maior impacto internacional, são pesquisadores da área de física nuclear, medicina e psicologia, esses índices são fáceis de identificar porque a frequência é um, de 108 mil pesquisadores a frequência é um, mas está distribuído, ciências humanas, enfim de um a dez, as ciências humanas ficam de um a três, de um a quatro, depende muito do pesquisador, mas a média e que a gente tem muita gente, dos 108 mil pesquisadores a maioria é zero, zero citações nessa base de dados e as pessoas não fazem bom uso às vezes da base de dados, elas usam para medir uma instituição, o script veio no caso para resolver para as pessoas que usam para medir uma instituição , você teria que colocar todas as pessoas e coletar esse grupo e verificar a média deles, então muitas pessoas fazem mal uso da plataforma, perde todo o sentido.

Então a maioria desses professores de física são titulares, são bolsistas de produtividade pelo CNPQ, para finalizar o resultado a média nacional dos 108 mil é 7,97 nosso índice H de produção.

A automatização é um processo importante, pois está em constante desenvolvimento, as pessoas estão sempre inserindo seus dados lá e o script se aplica também em pequenos grupos, no meu caso do meu trabalho que é serviço aplicado medir o programa de pós graduação, medir o grupo de pesquisa, departamentos.

O que vai ser feito daqui para frente, desenvolver um script para validar, qual foi o problema da validação, foram as pessoas que utilizam a plataforma por brincadeira, sem compreender que o índice tem que ser validado pelo CNPQ, então eu preciso verificar quem validou sua produção no lattes, isso já foi feito mas não deu tempo de falar aqui, uma interface gráfica e a comparação com outros países, principalmente União Soviética e Estados Unidos.

É isso, gostaria de agradecer a CAPES porque eu sou bolsista de pós-doutorado.

Muito obrigado.


Support

Federal University of Paraíba (UFPB)São Paulo State University (UNESP)Federal University of Santa Catarina (UFSC)Electronic Journal Digital Skills for Family Farming (RECoDAF)National Council for Scientific and Technological Development (CNPq)