Análise de sentimentos: Identificando sentimentos em comentários da Rede Humaniza SUS

Guilherme Ataíde Dias; Moisés Lima Dutra; Fábio Mosso Moreira; Fernando de Assis Rodrigues; Ricardo César Gonçalves Sant'Ana

Informação, Dados e Tecnologia

Guilherme Ataíde Dias

Universidade Federal da Paraíba (UFPB) | guilhermeataide@ccsa.ufpb.br | https://orcid.org/0000-0001-6576-0017 | https://lattes.cnpq.br/9553707435669429

Graduado em Ciência da Computação pela Universidade Federal da Paraíba – UFPB Campus II (1990), Bacharel em Direito pelo Centro Universitário de João Pessoa – UNIPE (2010), Mestre em Organization & Management pela Central Connecticut State University – CCSU (1995), Doutor em Ciência da Informação (Ciências da Comunicação) pela Universidade de São Paulo – USP (2003) e Pós-Doutor pela UNESP (2011). Atualmente é professor Associado III na Universidade Federal da Paraíba, lotado no Departamento de Ciência da Informação. Está envolvido com a Pós-Graduação através do Programa de Pós-Graduação em Ciência da Informação e Programa de Pós-Graduação em Administração, ambos da UFPB. Tem interesse de pesquisa nas seguintes temáticas: Representação do Conhecimento; Arquitetura da Informação; Segurança da Informação; Tecnologias da Informação e Comunicação; Informação em Saúde; Redes Sociais; Software Livre; Direito, Ética e Propriedade Intelectual no Ciberespaço; Gestão de Dados Científicos; Informação Jurídica; Atualmente é Bolsista de Produtividade em Pesquisa (PQ) do CNPq.

Moisés Lima Dutra

Universidade Federal de Santa Catarina (UFSC) | moises.dutra@ufsc.br | https://orcid.org/0000-0003-1000-5553 | https://lattes.cnpq.br/1973469817655034

Professor Adjunto da Universidade Federal de Santa Catarina, Departamento de Ciência da Informação. Doutor em Computação pela Universidade de Lyon 1, França (2009). Mestre em Engenharia Elétrica, subárea Automação e Sistemas (2005) e Bacharel em Computação (1998) pela Universidade Federal de Santa Catarina. Suas atuais linhas de pesquisa estão relacionadas a Inteligência Artificial Aplicada (Machine Learning, Deep Learning, Web Semântica, Linked Data) e a Data Science (Text Mining, Big Data, IoT). Está vinculado ao grupo de pesquisa ITI-RG (Inteligência, Tecnologia e Informação - Research Group).

Fábio Mosso Moreira

Universidade Estadual Paulista (UNESP) | fabio.moreira@unesp.br | https://orcid.org/0000-0002-9582-4218 | https://lattes.cnpq.br/1614493890723021

Graduado em Administração de Empresas pela Faculdade de Ciências e Engenharia (UNESP/Tupã). Mestrado concluído em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Doutorado em andamento Programa de Pós-Graduação em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Atua como membro do Grupo de Pesquisa Novas Tecnologias em Informação - GPNTI (UNESP/Marília) e Grupo de Pesquisa Tecnologia de Acesso a Dados -GPTAD (UNESP / Tupã). Editor de Conteúdo da Revista Eletrônica Competências Digitais para Agricultura Familiar (RECoDAF). Possui Habilidade Profissional Técnica em Informática pela ETEC Massuyuki Kawano - Centro Paula Souza de Tupã. Tem experiência profissional na área de Sistemas de Informação ERP para Operações de Logística. Atualmente realiza pesquisas com foco na investigação de temas ligados à utilização de recursos digitais para a disponibilização e acesso a dados governamentais de Políticas Públicas no âmbito dos pequenos produtores.

Fernando de Assis Rodrigues

Universidade Federal do Pará (UFPA) | fernando@rodrigues.pro.br | https://orcid.org/0000-0001-9634-1202 | https://lattes.cnpq.br/5556499513805582

Professor Adjunto no Instituto de Ciências Sociais Aplicadas, lotado na Faculdade de Arquivologia da Universidade Federal do Pará. Doutor e Mestre em Ciência da Informação pela UNESP - Universidade Estadual Paulista. Especialista em Sistemas para Internet pela UNIVEM - Centro Universitário Eurípides de Marília. Bacharel em Sistemas de Informação pela USC - Universidade do Sagrado Coração. Membro dos grupos de pesquisa GPNTI - Novas Tecnologias em Informação e GPTAD - Tecnologias de Acesso a Dados (UNESP), GPIDT - Informação, Dados e Tecnologia (USP) e GPDM - Dados e Metadados (UFSCar). Editor do periódico RECoDAF - Revista Eletrônica Competências Digitas para a Agricultura Familiar. Atua nas áreas da Ciência da Informação e da Ciência da Computação, com ênfase em Engenharia de Software, Bancos de Dados, Tecnologia de Informação e Comunicação e Ambientes Informacionais Digitais, focado principalmente nos seguintes temas: Coleta de Dados, Dados, Acesso a Dados, Serviços de Redes Sociais Online, Linked Data, Linked Open Data, Metadados, Internet Applications, Linguagens de Programação, Banco de Dados e Bases de Dados, Privacidade, Governo eletrônico, Open Government Data e Transparência Pública.

Ricardo César Gonçalves Sant'Ana

Universidade Estadual Paulista (UNESP) | ricardo.santana@unesp.br | https://orcid.org/0000-0003-1387-4519 | https://lattes.cnpq.br/1022660730972320

Professor Associado da Universidade Estadual Paulista - UNESP, Faculdade de Ciências e Engenharias - FCE, Campus de Tupã, em regime de dedicação exclusiva, onde é Presidente da Comissão de Acompanhamento e Avaliação dos cursos de Graduação - CAACG, Coordenador Local do Centro de Estudos e Práticas Pedagógicas - CENEPP e Ouvidor Local. Professor do Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista, Campus de Marília. Graduado em Matemática e Pedagogia, Mestrado em Ciência da Informação (2002), Doutorado em Ciência da Informação (2008) e Livre-Docente em Sistemas de Informações Gerenciais pela UNESP (2017). Possui especializações em Orientação à Objetos (1996) e Gestão de Sistemas de Informação (1998). Parecerista ad hoc de periódicos e de agências de fomento. Lider do Grupo de Pesquisa - Tecnologias de Acesso a Dados (GPTAD) e membro do Grupo de Pesquisa - Novas Tecnologias em Informação GPNTI. Tem experiência na área de Ciência da Computação, atualmente realiza pesquisas com foco em: ciência da informação e tecnologia da informação, investigando temas ligados ao Ciclo de Vida dos Dados, Transparência e ao Fluxo Informacional em Cadeias Produtivas. Atuou como professor na Faccat Faculdade de Ciências Contábeis e Administração de Tupã, onde coordenou curso de Administração com Habilitação em Análise de Sistemas por dez anos e o curso de Licenciatura em Computação. Atuou no setor privado como consultor, integrador e pesquisador de novas tecnologias informacionais de 1988 a 2004.

Organizadores

Guilherme Ataíde Dias

Universidade Federal da Paraíba (UFPB) | guilhermeataide@ccsa.ufpb.br | https://orcid.org/0000-0001-6576-0017 | https://lattes.cnpq.br/9553707435669429

Graduado em Ciência da Computação pela Universidade Federal da Paraíba – UFPB Campus II (1990), Bacharel em Direito pelo Centro Universitário de João Pessoa – UNIPE (2010), Mestre em Organization & Management pela Central Connecticut State University – CCSU (1995), Doutor em Ciência da Informação (Ciências da Comunicação) pela Universidade de São Paulo – USP (2003) e Pós-Doutor pela UNESP (2011). Atualmente é professor Associado III na Universidade Federal da Paraíba, lotado no Departamento de Ciência da Informação. Está envolvido com a Pós-Graduação através do Programa de Pós-Graduação em Ciência da Informação e Programa de Pós-Graduação em Administração, ambos da UFPB. Tem interesse de pesquisa nas seguintes temáticas: Representação do Conhecimento; Arquitetura da Informação; Segurança da Informação; Tecnologias da Informação e Comunicação; Informação em Saúde; Redes Sociais; Software Livre; Direito, Ética e Propriedade Intelectual no Ciberespaço; Gestão de Dados Científicos; Informação Jurídica; Atualmente é Bolsista de Produtividade em Pesquisa (PQ) do CNPq.

Moisés Lima Dutra

Universidade Federal de Santa Catarina (UFSC) | moises.dutra@ufsc.br | https://orcid.org/0000-0003-1000-5553 | https://lattes.cnpq.br/1973469817655034

Professor Adjunto da Universidade Federal de Santa Catarina, Departamento de Ciência da Informação. Doutor em Computação pela Universidade de Lyon 1, França (2009). Mestre em Engenharia Elétrica, subárea Automação e Sistemas (2005) e Bacharel em Computação (1998) pela Universidade Federal de Santa Catarina. Suas atuais linhas de pesquisa estão relacionadas a Inteligência Artificial Aplicada (Machine Learning, Deep Learning, Web Semântica, Linked Data) e a Data Science (Text Mining, Big Data, IoT). Está vinculado ao grupo de pesquisa ITI-RG (Inteligência, Tecnologia e Informação - Research Group).

Fábio Mosso Moreira

Universidade Estadual Paulista (UNESP) | fabio.moreira@unesp.br | https://orcid.org/0000-0002-9582-4218 | https://lattes.cnpq.br/1614493890723021

Graduado em Administração de Empresas pela Faculdade de Ciências e Engenharia (UNESP/Tupã). Mestrado concluído em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Doutorado em andamento Programa de Pós-Graduação em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Atua como membro do Grupo de Pesquisa Novas Tecnologias em Informação - GPNTI (UNESP/Marília) e Grupo de Pesquisa Tecnologia de Acesso a Dados -GPTAD (UNESP / Tupã). Editor de Conteúdo da Revista Eletrônica Competências Digitais para Agricultura Familiar (RECoDAF). Possui Habilidade Profissional Técnica em Informática pela ETEC Massuyuki Kawano - Centro Paula Souza de Tupã. Tem experiência profissional na área de Sistemas de Informação ERP para Operações de Logística. Atualmente realiza pesquisas com foco na investigação de temas ligados à utilização de recursos digitais para a disponibilização e acesso a dados governamentais de Políticas Públicas no âmbito dos pequenos produtores.

Fernando de Assis Rodrigues

Universidade Federal do Pará (UFPA) | fernando@rodrigues.pro.br | https://orcid.org/0000-0001-9634-1202 | https://lattes.cnpq.br/5556499513805582

Professor Adjunto no Instituto de Ciências Sociais Aplicadas, lotado na Faculdade de Arquivologia da Universidade Federal do Pará. Doutor e Mestre em Ciência da Informação pela UNESP - Universidade Estadual Paulista. Especialista em Sistemas para Internet pela UNIVEM - Centro Universitário Eurípides de Marília. Bacharel em Sistemas de Informação pela USC - Universidade do Sagrado Coração. Membro dos grupos de pesquisa GPNTI - Novas Tecnologias em Informação e GPTAD - Tecnologias de Acesso a Dados (UNESP), GPIDT - Informação, Dados e Tecnologia (USP) e GPDM - Dados e Metadados (UFSCar). Editor do periódico RECoDAF - Revista Eletrônica Competências Digitas para a Agricultura Familiar. Atua nas áreas da Ciência da Informação e da Ciência da Computação, com ênfase em Engenharia de Software, Bancos de Dados, Tecnologia de Informação e Comunicação e Ambientes Informacionais Digitais, focado principalmente nos seguintes temas: Coleta de Dados, Dados, Acesso a Dados, Serviços de Redes Sociais Online, Linked Data, Linked Open Data, Metadados, Internet Applications, Linguagens de Programação, Banco de Dados e Bases de Dados, Privacidade, Governo eletrônico, Open Government Data e Transparência Pública.

Ricardo César Gonçalves Sant'Ana

Universidade Estadual Paulista (UNESP) | ricardo.santana@unesp.br | https://orcid.org/0000-0003-1387-4519 | https://lattes.cnpq.br/1022660730972320

Professor Associado da Universidade Estadual Paulista - UNESP, Faculdade de Ciências e Engenharias - FCE, Campus de Tupã, em regime de dedicação exclusiva, onde é Presidente da Comissão de Acompanhamento e Avaliação dos cursos de Graduação - CAACG, Coordenador Local do Centro de Estudos e Práticas Pedagógicas - CENEPP e Ouvidor Local. Professor do Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista, Campus de Marília. Graduado em Matemática e Pedagogia, Mestrado em Ciência da Informação (2002), Doutorado em Ciência da Informação (2008) e Livre-Docente em Sistemas de Informações Gerenciais pela UNESP (2017). Possui especializações em Orientação à Objetos (1996) e Gestão de Sistemas de Informação (1998). Parecerista ad hoc de periódicos e de agências de fomento. Lider do Grupo de Pesquisa - Tecnologias de Acesso a Dados (GPTAD) e membro do Grupo de Pesquisa - Novas Tecnologias em Informação GPNTI. Tem experiência na área de Ciência da Computação, atualmente realiza pesquisas com foco em: ciência da informação e tecnologia da informação, investigando temas ligados ao Ciclo de Vida dos Dados, Transparência e ao Fluxo Informacional em Cadeias Produtivas. Atuou como professor na Faccat Faculdade de Ciências Contábeis e Administração de Tupã, onde coordenou curso de Administração com Habilitação em Análise de Sistemas por dez anos e o curso de Licenciatura em Computação. Atuou no setor privado como consultor, integrador e pesquisador de novas tecnologias informacionais de 1988 a 2004.

Análise de sentimentos: Identificando sentimentos em comentários da Rede Humaniza SUS

Páginas: 491 - 500

Autores

Eduardo Alves Silva

Universidade Nova de Lisboa (NOVAIMS) | easilva91@gmail.com |

Luis Felipe Rosa de Oliveira

Universidade Federal de Goías (UFGO) | luisprf@gmail.com | https://lattes.cnpq.br/6498992926514286

Mestrando em Comunicação Social na Faculdade de Informação e Comunicação da Universidade Federal de Goiás. Bolsista CAPES - DS. Bacharel em Gestão da Informação pela Universidade Federal de Goiás. Realizando pesquisas na área de Mídias Sociais Digitais, Redes Sociais, Linguagem de Programação Python e Análise Estatística de Dados.

Transcrição do Vídeo

O meu é Eduardo esse vídeo é uma apresentação sobre o trabalho que foi enviado para o workshop de informação dados e tecnologia que ocorre na Universidade da Paraíba entre os dias 27/11 e 29/11 de 2018.

O trabalho em questão tem o nome de “ANÁLISE DE SENTIMENTOS: Identificando sentimentos em comentários da Rede Humaniza SUS” trabalho foi produzido por mim Eduardo Silva e pelo meu colega Luiz Felipe Rosa.

O trabalho em questão tem como objetivo identificar sentimentos nos comentários da rede humaniza sus é uma rede social que têm atividade desde o ano de 2008 permeia assuntos relacionados ao sistema único de saúde brasileiro,ou seja, o SUS.

Atualmente a rede tem cerca de 30 mil usuários 14 mil publicações e em torno de 35 mil a 40 mil comentários. Para análises de sentimentos da rede dos comentários da rede nós fizemos o uso de mineração de dados ou mineração de texto nesse caso aplicando alguns conceitos de processamento de linguagem natural tudo utilizando a linguagem de programação python os dados foram coletados utilizando um banco de dados da rede após a coleta dos dados nós passamos a um tratamento desses dados usando um alguns metodologias de análise de texto e processamento de linguagem natural.

O texto em si vinha com linha com uma sujeira ou seja nesse contexto a sujeira são por exemplo caracteres assim que não foram bem identificados como a Ç, o AÕ entre outros caracteres.

Para além disso alguns comentários vinham com tags html ou seja apresentava as tags de parágrafos quebra de linha entre outros utilizando a linguagem de programação python fizemos limpeza desses dados e a sua normalização ou seja os dados passaram a ser normalizados sem sujeira todos os comentários com letras minúsculas.

Para identificação de sentimentos ou em alguns casos a sua classificação que não é bem esse caso podemos utilizar o aprendizado de máquina ou um léxico de sentimento uma vez que o intuito do trabalho para identificação e não a classificação nós utilizamos um léxico sentimento, o léxico é um com um dicionário com um conjunto de palavras ou textos que tenha atribuído a essas palavras uma polaridade essa popularidade pode ser positiva negativa ou neutra no caso do estudo nós utilizamos um léxico de sentimento chamado o OpLéxicon que é produzido pela PUC-RS baseado em texto jornalístico e em algumas outras fontes que eles utilizaram para produzir.

O OpLéxicon contém cerca de 32191 itens ou seja 32191 palavras dentre elas temos 24485 objetivos e 6889 verbos.

Nesse caso é preponderante o número de adjetivos e verbos uma vez que na língua portuguesa para definir um sentimento normalmente são esses dois tipos de palavras que são utilizados mas o léxico ainda tem hashtags determinantes preposições adjetivos e emóticos para dar segmento à metodologia o que fizemos foi a parte do léxico do sentimento criar uma metodologia de comparação das palavras que existe no comentário e que aparece no léxico, ou seja, se uma sentença tem 20 palavras e 10 das palavras aparecem no léxico de sentimento nós iremos armazenar os valores da polaridade dessas palavras e se encontram tanto no léxico quanto no comentário em questão a partir disso nós usamos uma metodologia de verificação e cálculo para definir quais os sentimentos aquele comentário que apresenta para tal nós tivemos como base os estudos feitos por autores que criaram um léxico de opinião o único de mineração de opinião da língua inglesa a partir do código que faz o uso desse léxico, nós fizemos uma adaptação com o léxicon a partir disso conseguimos verificar quais eram popularidade das palavras e assim sendo vai ficar com a popularidade do comentário ou seja se o comentário era positivo negativo ou neutro de acordo com o número de palavras positivas negativas ou neutras que apareciam nesse comentário.

Feito isso nós replicamos esse processo para todos os quase 40 mil comentários gerando assim a identificação de sentimentos de cada um deles.

A partir da identificação da popularidade nós podemos perceber que existe uma quantidade maior de comentários positivos e neutros do que negativos,.

Talvez isso ocorra por conta do tipo de rede social ao qual estamos lidando é uma rede um pouco mais controlada e focado em um tema específico então as pessoas nos comentários tendem a ser mais assertivas em termos de não dar comentários negativos mas sim comentários positivos de apoio ou então mensagens mais simples como bom dia gostei muito da postagem da publicação e comentários nessa linha

Dessa forma o resultado final que nós tivemos além da popularidade dos sentimentos a verificação das palavras mais comumente utilizadas em todos os comentários sendo que a palavra saúde como esperado parece em sua maioria assim como SUS entre outras relacionadas a esse contexto da saúde.

Foi possível também averiguar algumas questões mais minuciosos que se trata de uma análise um tanto quanto descritiva como por exemplo qual a frequência de comentários por mês por ano e assim por diante. Mas o resultado final a que nos interessava e que foi alcançado era definir ou identificar os possíveis sentimentos de cada um dos comentários pode se dizer que de certa forma nós estamos criando um dataset que posteriormente pode ser utilizado para classificar novos comentários então é importante ressaltar que o trabalho não se trata da classificação utilizando aprendizado de máquina mas sim da identificação utilizando um léxico a partir desse ponto é possível fazer uma comparação com outros léxico de sentimento da língua portuguesa para verificar quais deles tem uma taxa de acerto maior em relação à identificação de sentimentos no entanto uma vez que foi feito uso apenas do OpLéxico.

Nós tivemos como resultado final somente esses dados de identificação do sentimento agradeço a atenção daqueles que ler um artigo ou que estão apenas vendo o vídeo de apresentação muito obrigado e até mais.

Informação, Dados e Tecnologia

Guilherme Ataíde Dias

Moisés Lima Dutra

Fábio Mosso Moreira

Fernando de Assis Rodrigues

Ricardo César Gonçalves Sant'Ana

Organizadores

Guilherme Ataíde Dias

Moisés Lima Dutra

Fábio Mosso Moreira

Fernando de Assis Rodrigues

Ricardo César Gonçalves Sant'Ana

Análise de sentimentos: Identificando sentimentos em comentários da Rede Humaniza SUS

Autores

Eduardo Alves Silva

Luis Felipe Rosa de Oliveira

Transcrição do Vídeo

Apoio