Web Scraping do ResearchID: proposta de sistema para o monitoramento de Índice H de pesquisadores no Brasil

Guilherme Ataíde Dias; Moisés Lima Dutra; Fábio Mosso Moreira; Fernando de Assis Rodrigues; Ricardo César Gonçalves Sant'Ana

Informação, Dados e Tecnologia

Guilherme Ataíde Dias

Universidade Federal da Paraíba (UFPB) | guilhermeataide@ccsa.ufpb.br | https://orcid.org/0000-0001-6576-0017 | https://lattes.cnpq.br/9553707435669429

Graduado em Ciência da Computação pela Universidade Federal da Paraíba – UFPB Campus II (1990), Bacharel em Direito pelo Centro Universitário de João Pessoa – UNIPE (2010), Mestre em Organization & Management pela Central Connecticut State University – CCSU (1995), Doutor em Ciência da Informação (Ciências da Comunicação) pela Universidade de São Paulo – USP (2003) e Pós-Doutor pela UNESP (2011). Atualmente é professor Associado III na Universidade Federal da Paraíba, lotado no Departamento de Ciência da Informação. Está envolvido com a Pós-Graduação através do Programa de Pós-Graduação em Ciência da Informação e Programa de Pós-Graduação em Administração, ambos da UFPB. Tem interesse de pesquisa nas seguintes temáticas: Representação do Conhecimento; Arquitetura da Informação; Segurança da Informação; Tecnologias da Informação e Comunicação; Informação em Saúde; Redes Sociais; Software Livre; Direito, Ética e Propriedade Intelectual no Ciberespaço; Gestão de Dados Científicos; Informação Jurídica; Atualmente é Bolsista de Produtividade em Pesquisa (PQ) do CNPq.

Moisés Lima Dutra

Universidade Federal de Santa Catarina (UFSC) | moises.dutra@ufsc.br | https://orcid.org/0000-0003-1000-5553 | https://lattes.cnpq.br/1973469817655034

Professor Adjunto da Universidade Federal de Santa Catarina, Departamento de Ciência da Informação. Doutor em Computação pela Universidade de Lyon 1, França (2009). Mestre em Engenharia Elétrica, subárea Automação e Sistemas (2005) e Bacharel em Computação (1998) pela Universidade Federal de Santa Catarina. Suas atuais linhas de pesquisa estão relacionadas a Inteligência Artificial Aplicada (Machine Learning, Deep Learning, Web Semântica, Linked Data) e a Data Science (Text Mining, Big Data, IoT). Está vinculado ao grupo de pesquisa ITI-RG (Inteligência, Tecnologia e Informação - Research Group).

Fábio Mosso Moreira

Universidade Estadual Paulista (UNESP) | fabio.moreira@unesp.br | https://orcid.org/0000-0002-9582-4218 | https://lattes.cnpq.br/1614493890723021

Graduado em Administração de Empresas pela Faculdade de Ciências e Engenharia (UNESP/Tupã). Mestrado concluído em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Doutorado em andamento Programa de Pós-Graduação em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Atua como membro do Grupo de Pesquisa Novas Tecnologias em Informação - GPNTI (UNESP/Marília) e Grupo de Pesquisa Tecnologia de Acesso a Dados -GPTAD (UNESP / Tupã). Editor de Conteúdo da Revista Eletrônica Competências Digitais para Agricultura Familiar (RECoDAF). Possui Habilidade Profissional Técnica em Informática pela ETEC Massuyuki Kawano - Centro Paula Souza de Tupã. Tem experiência profissional na área de Sistemas de Informação ERP para Operações de Logística. Atualmente realiza pesquisas com foco na investigação de temas ligados à utilização de recursos digitais para a disponibilização e acesso a dados governamentais de Políticas Públicas no âmbito dos pequenos produtores.

Fernando de Assis Rodrigues

Universidade Federal do Pará (UFPA) | fernando@rodrigues.pro.br | https://orcid.org/0000-0001-9634-1202 | https://lattes.cnpq.br/5556499513805582

Professor Adjunto no Instituto de Ciências Sociais Aplicadas, lotado na Faculdade de Arquivologia da Universidade Federal do Pará. Doutor e Mestre em Ciência da Informação pela UNESP - Universidade Estadual Paulista. Especialista em Sistemas para Internet pela UNIVEM - Centro Universitário Eurípides de Marília. Bacharel em Sistemas de Informação pela USC - Universidade do Sagrado Coração. Membro dos grupos de pesquisa GPNTI - Novas Tecnologias em Informação e GPTAD - Tecnologias de Acesso a Dados (UNESP), GPIDT - Informação, Dados e Tecnologia (USP) e GPDM - Dados e Metadados (UFSCar). Editor do periódico RECoDAF - Revista Eletrônica Competências Digitas para a Agricultura Familiar. Atua nas áreas da Ciência da Informação e da Ciência da Computação, com ênfase em Engenharia de Software, Bancos de Dados, Tecnologia de Informação e Comunicação e Ambientes Informacionais Digitais, focado principalmente nos seguintes temas: Coleta de Dados, Dados, Acesso a Dados, Serviços de Redes Sociais Online, Linked Data, Linked Open Data, Metadados, Internet Applications, Linguagens de Programação, Banco de Dados e Bases de Dados, Privacidade, Governo eletrônico, Open Government Data e Transparência Pública.

Ricardo César Gonçalves Sant'Ana

Universidade Estadual Paulista (UNESP) | ricardo.santana@unesp.br | https://orcid.org/0000-0003-1387-4519 | https://lattes.cnpq.br/1022660730972320

Professor Associado da Universidade Estadual Paulista - UNESP, Faculdade de Ciências e Engenharias - FCE, Campus de Tupã, em regime de dedicação exclusiva, onde é Presidente da Comissão de Acompanhamento e Avaliação dos cursos de Graduação - CAACG, Coordenador Local do Centro de Estudos e Práticas Pedagógicas - CENEPP e Ouvidor Local. Professor do Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista, Campus de Marília. Graduado em Matemática e Pedagogia, Mestrado em Ciência da Informação (2002), Doutorado em Ciência da Informação (2008) e Livre-Docente em Sistemas de Informações Gerenciais pela UNESP (2017). Possui especializações em Orientação à Objetos (1996) e Gestão de Sistemas de Informação (1998). Parecerista ad hoc de periódicos e de agências de fomento. Lider do Grupo de Pesquisa - Tecnologias de Acesso a Dados (GPTAD) e membro do Grupo de Pesquisa - Novas Tecnologias em Informação GPNTI. Tem experiência na área de Ciência da Computação, atualmente realiza pesquisas com foco em: ciência da informação e tecnologia da informação, investigando temas ligados ao Ciclo de Vida dos Dados, Transparência e ao Fluxo Informacional em Cadeias Produtivas. Atuou como professor na Faccat Faculdade de Ciências Contábeis e Administração de Tupã, onde coordenou curso de Administração com Habilitação em Análise de Sistemas por dez anos e o curso de Licenciatura em Computação. Atuou no setor privado como consultor, integrador e pesquisador de novas tecnologias informacionais de 1988 a 2004.

Organizadores

Guilherme Ataíde Dias

Universidade Federal da Paraíba (UFPB) | guilhermeataide@ccsa.ufpb.br | https://orcid.org/0000-0001-6576-0017 | https://lattes.cnpq.br/9553707435669429

Graduado em Ciência da Computação pela Universidade Federal da Paraíba – UFPB Campus II (1990), Bacharel em Direito pelo Centro Universitário de João Pessoa – UNIPE (2010), Mestre em Organization & Management pela Central Connecticut State University – CCSU (1995), Doutor em Ciência da Informação (Ciências da Comunicação) pela Universidade de São Paulo – USP (2003) e Pós-Doutor pela UNESP (2011). Atualmente é professor Associado III na Universidade Federal da Paraíba, lotado no Departamento de Ciência da Informação. Está envolvido com a Pós-Graduação através do Programa de Pós-Graduação em Ciência da Informação e Programa de Pós-Graduação em Administração, ambos da UFPB. Tem interesse de pesquisa nas seguintes temáticas: Representação do Conhecimento; Arquitetura da Informação; Segurança da Informação; Tecnologias da Informação e Comunicação; Informação em Saúde; Redes Sociais; Software Livre; Direito, Ética e Propriedade Intelectual no Ciberespaço; Gestão de Dados Científicos; Informação Jurídica; Atualmente é Bolsista de Produtividade em Pesquisa (PQ) do CNPq.

Moisés Lima Dutra

Universidade Federal de Santa Catarina (UFSC) | moises.dutra@ufsc.br | https://orcid.org/0000-0003-1000-5553 | https://lattes.cnpq.br/1973469817655034

Professor Adjunto da Universidade Federal de Santa Catarina, Departamento de Ciência da Informação. Doutor em Computação pela Universidade de Lyon 1, França (2009). Mestre em Engenharia Elétrica, subárea Automação e Sistemas (2005) e Bacharel em Computação (1998) pela Universidade Federal de Santa Catarina. Suas atuais linhas de pesquisa estão relacionadas a Inteligência Artificial Aplicada (Machine Learning, Deep Learning, Web Semântica, Linked Data) e a Data Science (Text Mining, Big Data, IoT). Está vinculado ao grupo de pesquisa ITI-RG (Inteligência, Tecnologia e Informação - Research Group).

Fábio Mosso Moreira

Universidade Estadual Paulista (UNESP) | fabio.moreira@unesp.br | https://orcid.org/0000-0002-9582-4218 | https://lattes.cnpq.br/1614493890723021

Graduado em Administração de Empresas pela Faculdade de Ciências e Engenharia (UNESP/Tupã). Mestrado concluído em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Doutorado em andamento Programa de Pós-Graduação em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Atua como membro do Grupo de Pesquisa Novas Tecnologias em Informação - GPNTI (UNESP/Marília) e Grupo de Pesquisa Tecnologia de Acesso a Dados -GPTAD (UNESP / Tupã). Editor de Conteúdo da Revista Eletrônica Competências Digitais para Agricultura Familiar (RECoDAF). Possui Habilidade Profissional Técnica em Informática pela ETEC Massuyuki Kawano - Centro Paula Souza de Tupã. Tem experiência profissional na área de Sistemas de Informação ERP para Operações de Logística. Atualmente realiza pesquisas com foco na investigação de temas ligados à utilização de recursos digitais para a disponibilização e acesso a dados governamentais de Políticas Públicas no âmbito dos pequenos produtores.

Fernando de Assis Rodrigues

Universidade Federal do Pará (UFPA) | fernando@rodrigues.pro.br | https://orcid.org/0000-0001-9634-1202 | https://lattes.cnpq.br/5556499513805582

Professor Adjunto no Instituto de Ciências Sociais Aplicadas, lotado na Faculdade de Arquivologia da Universidade Federal do Pará. Doutor e Mestre em Ciência da Informação pela UNESP - Universidade Estadual Paulista. Especialista em Sistemas para Internet pela UNIVEM - Centro Universitário Eurípides de Marília. Bacharel em Sistemas de Informação pela USC - Universidade do Sagrado Coração. Membro dos grupos de pesquisa GPNTI - Novas Tecnologias em Informação e GPTAD - Tecnologias de Acesso a Dados (UNESP), GPIDT - Informação, Dados e Tecnologia (USP) e GPDM - Dados e Metadados (UFSCar). Editor do periódico RECoDAF - Revista Eletrônica Competências Digitas para a Agricultura Familiar. Atua nas áreas da Ciência da Informação e da Ciência da Computação, com ênfase em Engenharia de Software, Bancos de Dados, Tecnologia de Informação e Comunicação e Ambientes Informacionais Digitais, focado principalmente nos seguintes temas: Coleta de Dados, Dados, Acesso a Dados, Serviços de Redes Sociais Online, Linked Data, Linked Open Data, Metadados, Internet Applications, Linguagens de Programação, Banco de Dados e Bases de Dados, Privacidade, Governo eletrônico, Open Government Data e Transparência Pública.

Ricardo César Gonçalves Sant'Ana

Universidade Estadual Paulista (UNESP) | ricardo.santana@unesp.br | https://orcid.org/0000-0003-1387-4519 | https://lattes.cnpq.br/1022660730972320

Professor Associado da Universidade Estadual Paulista - UNESP, Faculdade de Ciências e Engenharias - FCE, Campus de Tupã, em regime de dedicação exclusiva, onde é Presidente da Comissão de Acompanhamento e Avaliação dos cursos de Graduação - CAACG, Coordenador Local do Centro de Estudos e Práticas Pedagógicas - CENEPP e Ouvidor Local. Professor do Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista, Campus de Marília. Graduado em Matemática e Pedagogia, Mestrado em Ciência da Informação (2002), Doutorado em Ciência da Informação (2008) e Livre-Docente em Sistemas de Informações Gerenciais pela UNESP (2017). Possui especializações em Orientação à Objetos (1996) e Gestão de Sistemas de Informação (1998). Parecerista ad hoc de periódicos e de agências de fomento. Lider do Grupo de Pesquisa - Tecnologias de Acesso a Dados (GPTAD) e membro do Grupo de Pesquisa - Novas Tecnologias em Informação GPNTI. Tem experiência na área de Ciência da Computação, atualmente realiza pesquisas com foco em: ciência da informação e tecnologia da informação, investigando temas ligados ao Ciclo de Vida dos Dados, Transparência e ao Fluxo Informacional em Cadeias Produtivas. Atuou como professor na Faccat Faculdade de Ciências Contábeis e Administração de Tupã, onde coordenou curso de Administração com Habilitação em Análise de Sistemas por dez anos e o curso de Licenciatura em Computação. Atuou no setor privado como consultor, integrador e pesquisador de novas tecnologias informacionais de 1988 a 2004.

Web Scraping do ResearchID: proposta de sistema para o monitoramento de Índice H de pesquisadores no Brasil

Páginas: 240 - 256

Autores

Alexandre Ribas Semeler

Universidade Federal do Rio Grande do Sul (UFRGS) | alexandre.semeler@ufrgs.br | https://orcid.org/0000-0002-8036-4271 | https://lattes.cnpq.br/1564154234554393

Bibliotecário de dados no Instituto de Geociências da Universidade Federal do Rio Grande do Sul (UFRGS), Porto Alegre, Brasil. É graduado em Biblioteconomia pela UFRGS (2003-2007) e mestre em Comunicação e Informação pela UFRGS (2008-2010). É Doutor em Ciência da Informação pela Universidade Federal de Santa Catarina (UFSC) (2015-2017). Atualmente é (2018) pós-doutorando em Ciência da Informação na Universidade Federal de Santa Catarina, Florianópolis, Brasil. Suas áreas de interesse de pesquisa incluem: tópicos interdisciplinares em ciência da informação, e-ciência, ciência de dados e biblioteconomia de dados.

Adilson Luiz Pinto

Universidade Federal de Santa Catarina (UFSC) | adilson.pinto@ufsc.br | https://orcid.org/0000-0002-4142-2061 | https://lattes.cnpq.br/4767432940301118

Orientador de Mestrado e Doutorado desde 2011. Coordenador do Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de Santa Catarina - UFSC (gestão 2017-2019); Sub-Coordenador do Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de Santa Catarina - UFSC (gestão 2014-2016); Coordenador de Pesquisa e Extensão da Universidade Federal de Santa Catarina - UFSC (gestão 2011-2012). Professor Associado II do Departamento de Ciência da Informação da UFSC (Graduação em Biblioteconomia/Arquivologia/Ciência da Informação e Mestrado/Doutorado em Ciência da Informação), Professor Visitante: (i) Universidad de Panamá, (ii) Universidad Nacional de la Republica Uruguai, (iii) Universidad Nacional de Cuyo, (iv) Universidad Carlos III de Madrid, (v) Université Montpellier III, (vi) Universidade Estadual de Londrina. Titulações: Graduado em Biblioteconomia pela PUC-Campinas (2000), Mestre em Ciência da Informação pela PUC-Campinas (2004) e em Documentação Audiovisual pela Universidad Carlos III de Madrid (2006); Doutor em Documentação pela Universidad Carlos III de Madrid (2007). Membro do Grupo de Pesquisa Inteligência, Tecnologia e Informação - Research Group (ITI-RG); Membro do Conselho Editorial das revistas (i) El Profesional de la Información; (ii) Hipertext.net; (iii) Boletín Millares Carlo; (iv) Revista Interamericana de Bibliotecología; Avaliador contínuo (i) Transinformação, (ii) Revista da ACB, (iii) Revista RBBD, (iv) Enancib no GT7 e GT8, (v) revista InCID, (vi) El Profesional de la Información, (vii) da 3ª, 4ª,5ª e 6ª edição do Encontro Brasileiro de Bibliometria e Cientometria, (viii) LiiNC em Revista, (ix) CBBD, (x) SNBU e (xi) Biblioetcas: anales de investigación. Especialista em Ciência da Informação, com ênfase em: Estudos Métricos da Informação (bibliometria, cienciometria, informetria, librametrics, webometria e arquivometria), E-Science (mineração automatizada de dados), Visualização da Informação (Análise de Redes Sociais, Visualização analítica, Visualização de textos, Modelagem de Processo, Visualização temporal, Geolocalização de dados e Clusterização).

Arthur Longoni Oliveira

Universidade Federal do Rio Grande do Sul (UFRGS) | arthur.holiver@gmail.com | https://lattes.cnpq.br/7483194676718999

Graduando de Ciência da Computação no Instituto de Informática da Universidade Federal Do Rio Grande Do Sul (2013-atual). Cientista de Dados Junior. Atuando nas seguintes áreas: Ciência da Informação, Programação Orientada a Objetos, Computação Paralela Aplicada à Coleta, Análise e Visualização de Dados Científicos.

Transcrição do Vídeo

Bom, primeiro eu gostaria de falar que este trabalho inicialmente, bom sou pós-doutorando do Programa de Pós-Graduação de Ciência da Informação da UFSC, sou bibliotecário do instituto de geociência da UFSC, e esse trabalho é uma aplicação prática de um serviço que eu estou propondo para minha universidade para que ele componha uma parte de um documento diário para avaliação de docentes que vão se candidatar para progressão de titular e para alinhar e comparar programas de pós-graduação. No entanto eu não posso utilizar os dados porque é um trabalho que está sendo desenvolvido, eu vou falar sobre o índice nacional, o índice H.

A primeira parte a gente tem uma ferramenta desenvolvida pela Thompson que oferece a versão do índice H para todo mundo, e o Brasil é o país que mais utiliza a ferramenta para gerar o Índice H, muitas vezes para instituições, para escolas, mas também para pessoas que é o objetivo da ferramenta, são 108 mil pesquisadores brasileiros que utilizam a ferramenta.

O CNPQ adota esta ferramenta para validar o índice H ou fator H como o CNPQ chama, desses pesquisadores brasileiros, geralmente esse fator ele é mais válido para pessoas que têm mais tempo, para pesquisadores no caso, mas ela fica dentro da academia e o CNPQ usa isso para pautar a distribuição de bolsa de produtividade e para distribuição de fomento para projeto de pesquisa. Na área de geociência que é a área que eu tenho maior conhecimento.

Enfim, essa é a ferramenta adotada pelo CNPQ, ela fornece essas informações sobre a produção e o impacto científico que ela tem internacionalmente, é um indicador usado para medir a internacionalização da produção científica. Então qual é o objetivo do trabalho? Desenvolver uma forma automatizada para extrair esse índice H dos pesquisadores brasileiros, fazendo isso com a linguagem de programação Python e identificar esse índice H em uma frente de pesquisa nacional, quais são os pesquisadores brasileiros que possuem maior impacto em produção científica na base de dados da Thompson.

Como foi então desenvolvido esse trabalho? A pesquisa foi uma pesquisa exploratória, descritiva dos dados, de natureza quantitativa, o corpus de estudo foram 108 mil id’s, identificadores, ela foi feita totalmente automatizada, foi utilizado o scraping para a raspagem dos dados, como é uma base proprietária ela não permite que a gente fique raspando ela em looping, tem que ser com calma, tempo de 10 segundos, uma navegação de humano, então para automatizar esta navegação eu utilizei algumas bibliotecas de Python, uma biblioteca para raspagem que se chama BeautifulSoup que é para fazer o scraping, e o Selenium para poder fazer essa automatização e não ficar tão agressivo e a base proibir esse acesso aos dados.

E também um multiprocesso que é para poder, como é extraído muitos dados dela, muito tempo, a coleta sem a volumização dos dados levou em média 14 dias, é muito tempo, dividindo o processo em oito processadores da máquina, deu para reduzir o tempo da coleta para quatro dias, o que acontece essa coleta se modifica, os dados se modificam, as pessoas inserem mais informações, mais produções, e isso modifica o valor do índice, modifica a lista de publicações, então o que acontece, tem um dispositivo para falhas, então quando quebra a raspagem, quando se encerra a coleta o script retoma do último tempo válido, da última coleta válida, comparar a coleta que ele já tem e verifica se ela se modificou e reinicia-se, então ele coleta outros arquivos diferentes, conclui a coleta e salva em um novo arquivo, a onde ele vai fazer a soma das publicações e identificar , o nome, tem nome de pessoas, primeiramente.

O código está disponível no Github, o código e a primeira extração feita em setembro, ela já se modificou de 108 mil já são 108.900 id’s,. Então eles abrem e coletam as métricas de informação, a quantidade de publicação, as publicações com citação e o índice H, as publicações com citação, são publicações com citação na Web of Science, quer dizer que elas não são aquelas publicações no Google, aquelas citações em outras bases de dados, somente as publicações que estão no Science Citation Index na Thompson.

Nessa coleta maior eu identifiquei a frente de pesquisa nacional, quais são os pesquisadores com pesquisa de maior impacto internacional, são pesquisadores da área de física nuclear, medicina e psicologia, esses índices são fáceis de identificar porque a frequência é um, de 108 mil pesquisadores a frequência é um, mas está distribuído, ciências humanas, enfim de um a dez, as ciências humanas ficam de um a três, de um a quatro, depende muito do pesquisador, mas a média e que a gente tem muita gente, dos 108 mil pesquisadores a maioria é zero, zero citações nessa base de dados e as pessoas não fazem bom uso às vezes da base de dados, elas usam para medir uma instituição, o script veio no caso para resolver para as pessoas que usam para medir uma instituição , você teria que colocar todas as pessoas e coletar esse grupo e verificar a média deles, então muitas pessoas fazem mal uso da plataforma, perde todo o sentido.

Então a maioria desses professores de física são titulares, são bolsistas de produtividade pelo CNPQ, para finalizar o resultado a média nacional dos 108 mil é 7,97 nosso índice H de produção.

A automatização é um processo importante, pois está em constante desenvolvimento, as pessoas estão sempre inserindo seus dados lá e o script se aplica também em pequenos grupos, no meu caso do meu trabalho que é serviço aplicado medir o programa de pós graduação, medir o grupo de pesquisa, departamentos.

O que vai ser feito daqui para frente, desenvolver um script para validar, qual foi o problema da validação, foram as pessoas que utilizam a plataforma por brincadeira, sem compreender que o índice tem que ser validado pelo CNPQ, então eu preciso verificar quem validou sua produção no lattes, isso já foi feito mas não deu tempo de falar aqui, uma interface gráfica e a comparação com outros países, principalmente União Soviética e Estados Unidos.

É isso, gostaria de agradecer a CAPES porque eu sou bolsista de pós-doutorado.

Muito obrigado.

Informação, Dados e Tecnologia

Guilherme Ataíde Dias

Moisés Lima Dutra

Fábio Mosso Moreira

Fernando de Assis Rodrigues

Ricardo César Gonçalves Sant'Ana

Organizadores

Guilherme Ataíde Dias

Moisés Lima Dutra

Fábio Mosso Moreira

Fernando de Assis Rodrigues

Ricardo César Gonçalves Sant'Ana

Web Scraping do ResearchID: proposta de sistema para o monitoramento de Índice H de pesquisadores no Brasil

Autores

Alexandre Ribas Semeler

Adilson Luiz Pinto

Arthur Longoni Oliveira

Transcrição do Vídeo

Apoio