Informação, Dados e Tecnologia

Guilherme Ataíde Dias

Universidade Federal da Paraíba (UFPB) | guilhermeataide@ccsa.ufpb.br | https://orcid.org/0000-0001-6576-0017 | https://lattes.cnpq.br/9553707435669429

Graduado em Ciência da Computação pela Universidade Federal da Paraíba – UFPB Campus II (1990), Bacharel em Direito pelo Centro Universitário de João Pessoa – UNIPE (2010), Mestre em Organization & Management pela Central Connecticut State University – CCSU (1995), Doutor em Ciência da Informação (Ciências da Comunicação) pela Universidade de São Paulo – USP (2003) e Pós-Doutor pela UNESP (2011). Atualmente é professor Associado III na Universidade Federal da Paraíba, lotado no Departamento de Ciência da Informação. Está envolvido com a Pós-Graduação através do Programa de Pós-Graduação em Ciência da Informação e Programa de Pós-Graduação em Administração, ambos da UFPB. Tem interesse de pesquisa nas seguintes temáticas: Representação do Conhecimento; Arquitetura da Informação; Segurança da Informação; Tecnologias da Informação e Comunicação; Informação em Saúde; Redes Sociais; Software Livre; Direito, Ética e Propriedade Intelectual no Ciberespaço; Gestão de Dados Científicos; Informação Jurídica; Atualmente é Bolsista de Produtividade em Pesquisa (PQ) do CNPq.

Moisés Lima Dutra

Universidade Federal de Santa Catarina (UFSC) | moises.dutra@ufsc.br | https://orcid.org/0000-0003-1000-5553 | https://lattes.cnpq.br/1973469817655034

Professor Adjunto da Universidade Federal de Santa Catarina, Departamento de Ciência da Informação. Doutor em Computação pela Universidade de Lyon 1, França (2009). Mestre em Engenharia Elétrica, subárea Automação e Sistemas (2005) e Bacharel em Computação (1998) pela Universidade Federal de Santa Catarina. Suas atuais linhas de pesquisa estão relacionadas a Inteligência Artificial Aplicada (Machine Learning, Deep Learning, Web Semântica, Linked Data) e a Data Science (Text Mining, Big Data, IoT). Está vinculado ao grupo de pesquisa ITI-RG (Inteligência, Tecnologia e Informação - Research Group).

Fábio Mosso Moreira

Universidade Estadual Paulista (UNESP) | fabio.moreira@unesp.br | https://orcid.org/0000-0002-9582-4218 | https://lattes.cnpq.br/1614493890723021

Graduado em Administração de Empresas pela Faculdade de Ciências e Engenharia (UNESP/Tupã). Mestrado concluído em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Doutorado em andamento Programa de Pós-Graduação em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Atua como membro do Grupo de Pesquisa Novas Tecnologias em Informação - GPNTI (UNESP/Marília) e Grupo de Pesquisa Tecnologia de Acesso a Dados -GPTAD (UNESP / Tupã). Editor de Conteúdo da Revista Eletrônica Competências Digitais para Agricultura Familiar (RECoDAF). Possui Habilidade Profissional Técnica em Informática pela ETEC Massuyuki Kawano - Centro Paula Souza de Tupã. Tem experiência profissional na área de Sistemas de Informação ERP para Operações de Logística. Atualmente realiza pesquisas com foco na investigação de temas ligados à utilização de recursos digitais para a disponibilização e acesso a dados governamentais de Políticas Públicas no âmbito dos pequenos produtores.

Fernando de Assis Rodrigues

Universidade Federal do Pará (UFPA) | fernando@rodrigues.pro.br | https://orcid.org/0000-0001-9634-1202 | https://lattes.cnpq.br/5556499513805582

Professor Adjunto no Instituto de Ciências Sociais Aplicadas, lotado na Faculdade de Arquivologia da Universidade Federal do Pará. Doutor e Mestre em Ciência da Informação pela UNESP - Universidade Estadual Paulista. Especialista em Sistemas para Internet pela UNIVEM - Centro Universitário Eurípides de Marília. Bacharel em Sistemas de Informação pela USC - Universidade do Sagrado Coração. Membro dos grupos de pesquisa GPNTI - Novas Tecnologias em Informação e GPTAD - Tecnologias de Acesso a Dados (UNESP), GPIDT - Informação, Dados e Tecnologia (USP) e GPDM - Dados e Metadados (UFSCar). Editor do periódico RECoDAF - Revista Eletrônica Competências Digitas para a Agricultura Familiar. Atua nas áreas da Ciência da Informação e da Ciência da Computação, com ênfase em Engenharia de Software, Bancos de Dados, Tecnologia de Informação e Comunicação e Ambientes Informacionais Digitais, focado principalmente nos seguintes temas: Coleta de Dados, Dados, Acesso a Dados, Serviços de Redes Sociais Online, Linked Data, Linked Open Data, Metadados, Internet Applications, Linguagens de Programação, Banco de Dados e Bases de Dados, Privacidade, Governo eletrônico, Open Government Data e Transparência Pública.

Ricardo César Gonçalves Sant'Ana

Universidade Estadual Paulista (UNESP) | ricardo.santana@unesp.br | https://orcid.org/0000-0003-1387-4519 | https://lattes.cnpq.br/1022660730972320

Professor Associado da Universidade Estadual Paulista - UNESP, Faculdade de Ciências e Engenharias - FCE, Campus de Tupã, em regime de dedicação exclusiva, onde é Presidente da Comissão de Acompanhamento e Avaliação dos cursos de Graduação - CAACG, Coordenador Local do Centro de Estudos e Práticas Pedagógicas - CENEPP e Ouvidor Local. Professor do Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista, Campus de Marília. Graduado em Matemática e Pedagogia, Mestrado em Ciência da Informação (2002), Doutorado em Ciência da Informação (2008) e Livre-Docente em Sistemas de Informações Gerenciais pela UNESP (2017). Possui especializações em Orientação à Objetos (1996) e Gestão de Sistemas de Informação (1998). Parecerista ad hoc de periódicos e de agências de fomento. Lider do Grupo de Pesquisa - Tecnologias de Acesso a Dados (GPTAD) e membro do Grupo de Pesquisa - Novas Tecnologias em Informação GPNTI. Tem experiência na área de Ciência da Computação, atualmente realiza pesquisas com foco em: ciência da informação e tecnologia da informação, investigando temas ligados ao Ciclo de Vida dos Dados, Transparência e ao Fluxo Informacional em Cadeias Produtivas. Atuou como professor na Faccat Faculdade de Ciências Contábeis e Administração de Tupã, onde coordenou curso de Administração com Habilitação em Análise de Sistemas por dez anos e o curso de Licenciatura em Computação. Atuou no setor privado como consultor, integrador e pesquisador de novas tecnologias informacionais de 1988 a 2004.


Organizadores

Guilherme Ataíde Dias

Universidade Federal da Paraíba (UFPB) | guilhermeataide@ccsa.ufpb.br | https://orcid.org/0000-0001-6576-0017 | https://lattes.cnpq.br/9553707435669429

Graduado em Ciência da Computação pela Universidade Federal da Paraíba – UFPB Campus II (1990), Bacharel em Direito pelo Centro Universitário de João Pessoa – UNIPE (2010), Mestre em Organization & Management pela Central Connecticut State University – CCSU (1995), Doutor em Ciência da Informação (Ciências da Comunicação) pela Universidade de São Paulo – USP (2003) e Pós-Doutor pela UNESP (2011). Atualmente é professor Associado III na Universidade Federal da Paraíba, lotado no Departamento de Ciência da Informação. Está envolvido com a Pós-Graduação através do Programa de Pós-Graduação em Ciência da Informação e Programa de Pós-Graduação em Administração, ambos da UFPB. Tem interesse de pesquisa nas seguintes temáticas: Representação do Conhecimento; Arquitetura da Informação; Segurança da Informação; Tecnologias da Informação e Comunicação; Informação em Saúde; Redes Sociais; Software Livre; Direito, Ética e Propriedade Intelectual no Ciberespaço; Gestão de Dados Científicos; Informação Jurídica; Atualmente é Bolsista de Produtividade em Pesquisa (PQ) do CNPq.

Moisés Lima Dutra

Universidade Federal de Santa Catarina (UFSC) | moises.dutra@ufsc.br | https://orcid.org/0000-0003-1000-5553 | https://lattes.cnpq.br/1973469817655034

Professor Adjunto da Universidade Federal de Santa Catarina, Departamento de Ciência da Informação. Doutor em Computação pela Universidade de Lyon 1, França (2009). Mestre em Engenharia Elétrica, subárea Automação e Sistemas (2005) e Bacharel em Computação (1998) pela Universidade Federal de Santa Catarina. Suas atuais linhas de pesquisa estão relacionadas a Inteligência Artificial Aplicada (Machine Learning, Deep Learning, Web Semântica, Linked Data) e a Data Science (Text Mining, Big Data, IoT). Está vinculado ao grupo de pesquisa ITI-RG (Inteligência, Tecnologia e Informação - Research Group).

Fábio Mosso Moreira

Universidade Estadual Paulista (UNESP) | fabio.moreira@unesp.br | https://orcid.org/0000-0002-9582-4218 | https://lattes.cnpq.br/1614493890723021

Graduado em Administração de Empresas pela Faculdade de Ciências e Engenharia (UNESP/Tupã). Mestrado concluído em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Doutorado em andamento Programa de Pós-Graduação em Ciência da Informação - Faculdade de Filosofia e Ciências (UNESP/Marília). Atua como membro do Grupo de Pesquisa Novas Tecnologias em Informação - GPNTI (UNESP/Marília) e Grupo de Pesquisa Tecnologia de Acesso a Dados -GPTAD (UNESP / Tupã). Editor de Conteúdo da Revista Eletrônica Competências Digitais para Agricultura Familiar (RECoDAF). Possui Habilidade Profissional Técnica em Informática pela ETEC Massuyuki Kawano - Centro Paula Souza de Tupã. Tem experiência profissional na área de Sistemas de Informação ERP para Operações de Logística. Atualmente realiza pesquisas com foco na investigação de temas ligados à utilização de recursos digitais para a disponibilização e acesso a dados governamentais de Políticas Públicas no âmbito dos pequenos produtores.

Fernando de Assis Rodrigues

Universidade Federal do Pará (UFPA) | fernando@rodrigues.pro.br | https://orcid.org/0000-0001-9634-1202 | https://lattes.cnpq.br/5556499513805582

Professor Adjunto no Instituto de Ciências Sociais Aplicadas, lotado na Faculdade de Arquivologia da Universidade Federal do Pará. Doutor e Mestre em Ciência da Informação pela UNESP - Universidade Estadual Paulista. Especialista em Sistemas para Internet pela UNIVEM - Centro Universitário Eurípides de Marília. Bacharel em Sistemas de Informação pela USC - Universidade do Sagrado Coração. Membro dos grupos de pesquisa GPNTI - Novas Tecnologias em Informação e GPTAD - Tecnologias de Acesso a Dados (UNESP), GPIDT - Informação, Dados e Tecnologia (USP) e GPDM - Dados e Metadados (UFSCar). Editor do periódico RECoDAF - Revista Eletrônica Competências Digitas para a Agricultura Familiar. Atua nas áreas da Ciência da Informação e da Ciência da Computação, com ênfase em Engenharia de Software, Bancos de Dados, Tecnologia de Informação e Comunicação e Ambientes Informacionais Digitais, focado principalmente nos seguintes temas: Coleta de Dados, Dados, Acesso a Dados, Serviços de Redes Sociais Online, Linked Data, Linked Open Data, Metadados, Internet Applications, Linguagens de Programação, Banco de Dados e Bases de Dados, Privacidade, Governo eletrônico, Open Government Data e Transparência Pública.

Ricardo César Gonçalves Sant'Ana

Universidade Estadual Paulista (UNESP) | ricardo.santana@unesp.br | https://orcid.org/0000-0003-1387-4519 | https://lattes.cnpq.br/1022660730972320

Professor Associado da Universidade Estadual Paulista - UNESP, Faculdade de Ciências e Engenharias - FCE, Campus de Tupã, em regime de dedicação exclusiva, onde é Presidente da Comissão de Acompanhamento e Avaliação dos cursos de Graduação - CAACG, Coordenador Local do Centro de Estudos e Práticas Pedagógicas - CENEPP e Ouvidor Local. Professor do Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista, Campus de Marília. Graduado em Matemática e Pedagogia, Mestrado em Ciência da Informação (2002), Doutorado em Ciência da Informação (2008) e Livre-Docente em Sistemas de Informações Gerenciais pela UNESP (2017). Possui especializações em Orientação à Objetos (1996) e Gestão de Sistemas de Informação (1998). Parecerista ad hoc de periódicos e de agências de fomento. Lider do Grupo de Pesquisa - Tecnologias de Acesso a Dados (GPTAD) e membro do Grupo de Pesquisa - Novas Tecnologias em Informação GPNTI. Tem experiência na área de Ciência da Computação, atualmente realiza pesquisas com foco em: ciência da informação e tecnologia da informação, investigando temas ligados ao Ciclo de Vida dos Dados, Transparência e ao Fluxo Informacional em Cadeias Produtivas. Atuou como professor na Faccat Faculdade de Ciências Contábeis e Administração de Tupã, onde coordenou curso de Administração com Habilitação em Análise de Sistemas por dez anos e o curso de Licenciatura em Computação. Atuou no setor privado como consultor, integrador e pesquisador de novas tecnologias informacionais de 1988 a 2004.


Reconhecimento de entidades nomeadas em relatórios de inteligência financeira

Páginas: 291 - 302

Autores

Jairo Santana

Universidade Federal de Santa Catarina (UFSC) | jairo.santana@gmail.com |

Diefferson K. Moro

Universidade Federal de Santa Catarina (UFSC) | differson.moro@gmail.com |

Graduação em Tecnologias de Informação e Comunicação – UFSC Araranguá

Rogério de Aquino Silva

Universidade Federal de Santa Catarina (UFSC) | rogerriomp@gmail.com |

Vinicius Faria Culmant Ramos

Universidade Federal de Santa Catarina (UFSC) | v.ramos@ufsc.br | https://orcid.org/0000-0002-8319-743X | https://lattes.cnpq.br/0442142220296336

Professor Adjunto da Universidade Federal de Santa Catarina (UFSC) campus Araranguá. Possui graduação em Bacharelado em Ciência da Computação pela UFRJ, Mestrado em Engenharia de Sistemas e Computação pela COPPE/UFRJ e Doutorado em Engenharia de Sistemas e Computação com acordo de co-tutela entre a COPPE/UFRJ e a Universidade Tecnlógica de Eindhoven (HOL). Atualmente, trabalha com pesquisa e desenvolvimento de metodologias e ferramentas tecnológicas para o tratamento e análise de grande quantidade de dados (Big Data) em redes sociais. Suas pesquisas também são voltadas para o ensino de programação de computadores e o desenvolvimento de ambientes construtivistas de aprendizagem presenciais e a distância com o uso de novas tecnologias digitais da informação e comunicação. Atua principalmente nos seguintes temas: tecnologia educacional, educação a distância, novas tecnologias da Web, sistemas adaptativos, avaliação de sistemas adaptativos, ensino de programação e tratamento e análise de big data.

Gustavo Medeiros de Araujo

Universidade Federal de Santa Catarina (UFSC) | gustavo.araujo@ufsc.br | https://orcid.org/0000-0003-0572-6997 | https://lattes.cnpq.br/2609254559240670

Doutor em Engenharia de Automação e Sistemas pela UFSC (2013) e mestre em Ciência da Computação pela UFSC (2007). Tem experiência na área de Ciência da Computação e Automação, com ênfase em Data Science, Machine e Deep Learning e Cyber-Physical System. Possui duas linhas de pesquisa: i) Aplicações com Data Science, Machine e Deep Learning e ii) Protocolos de Redes de Sensores Sem Fio (RSSF) e MANTEs. Além da formação acadêmica, possui experiência na indústria de software desenvolvendo sistemas de informação para o governo federal e sistemas para a indústria de automação. Atualmente, é professor Adjunto A2 da Universidade Federal de Santa Catarina, membro do Laboratório de Integração Software e Hardware (LISHA) e membro do Laboratório de Engenharia e Ciência de Dados (LECID).

Transcrição do Vídeo

Bom, esse trabalho “Reconhecimento de entidades nomeadas em relatório de inteligência financeira”, foi realizado na Universidade Federal de Santa Catarina no departamento de ciência da informação. Os autores são: Jairo Brandão de Santana, Prof. Dr. Gustavo Medeiros de Araujo e Prof. Dr. Vinicius Faria Culmant Ramos. Trabalho aceito pelo WIDAT 2018 - Workshop de Informação Dados e Tecnologia.

Trabalho motivado pela questão de lavagem de dinheiro, no qual a origem da lavagem de dinheiro começou pelas máfias e organizações criminosas do início do século 20, aumentou com o surgimento dos países fiscais com dinheiros ilícito tinha o seu destino, aumentou bastante com a questão do narcotráfico que o volume de dinheiro gerado é muito grande, dinheiro que precisava ser espalhado em um lugar. Então “É uma forma genérica de referir-se ao processo ou conjunto de operações de ocultar a origem de dinheiro ou dos bens resultantes das atividades delitivas e integrá-los no sistema econômico ou financeiro, em operações capazes de converter o dinheiro sujo em dinheiro limpo” (Lustosa, 2009, p.1).

Lavagem de dinheiro em algumas etapas apresentadas, ocultação de dinheiro no recebimento de dinheiro é colocado em instituições financeiras e a dissimulação a distribuição entre as instituições financeiras, empresas e offshore; depois a integração com a utilização desse dinheiro ilícito em ativos listados para caracterizar com a atitude do dinheiro.

A Convenção de Viena aconteceu em 1988, criada pela ONU para poder tentar mitigar esse problema de lavagem de dinheiro, financiamento de terrorismo; foram feitas várias atribuições como identificar os riscos de desenvolver políticas e combater a lavagem de dinheiro e o financiamento do terrorismo e a proliferação, aplicar medidas preventivas no setor financeiro, estabelecer poderes, aumentar a transparência e melhorar a cooperação internacional.

No Brasil surgiu em 1998 a lei de lavagem de dinheiro, a criação da COAF - Conselho de Controle de Atividades Financeiras, no caso aqui a nossa entidade que examina todas as atividades que são suspeitas para poder fazer uma investigação. Eles fazem uma investigação preliminar e dependendo das atividades suspeitas eles enviam esses relatórios das atividades suspeitas para as autoridades competentes.

Há uma comunicação entre o setor financeiro e a COAF no qual acima de qualquer operação acima de 150 mil, ela deve ser registrada e deve ser enviada para o COAF com pelo menos três dias de antecedência. A partir de uma análise prévia das instituições financeiras sobre as operações suspeitas essas instituições enviam para o COAF essas operações a qual ela faz uma pré análise dessas operações e gera um relatório, vantagem desse relatório que é o relatório de inteligência financeira que comunica as autoridades com essas informações.

Estão na polícia federal existe uma área de repressão aos crimes financeiros que recebe os RIF’s que são relatório de inteligência financeira e faz uma análise, tábula o resultado do RIF’s e também uma análise de diagramação. Então esse é o formato do relatório recebido pelo agente financeiro com várias informações além de empresas e o montante de dinheiro operacionalizado e as empresas que estão recebendo. É uma dependência muito grande para o desempenho da análise do RIF’s de uma dependência do agente, ele tem que ser experiente e tem que também lembrar se aquela operação é parecido com outra operação que ele viu em outro RIF’s, há um descasamento de informações entre RIF’s e a própria análise que pode ser bastante custosa dependendo do tamanho.

Após análise inicial o agente realiza uma tabulação dos RIF’s colocando ali a origem de quem depositou, o depositante, a pessoa que vai receber o valor, o tipo de operação e um período, então ele faz manualmente essa análise e assim esse preenchimento.

A proposta é fazer o reconhecimento de entidades, eventos através de mineração de texto e armazenar em uma base de dados estruturados. Um processo de mineração de texto ele envolve três etapas principais: o pré-processamento de documentos, extração de padrões e agrupamentos de texto e avaliação do conhecimento.

Utilizamos as três métricas mais conhecidas para avaliar a mineração de textos, a precisão, Recall, F-Score. A precisão mede habilidades do sistema em manter os documentos relevantes, fora o resultado da consulta ou seja fórmula dos documentos recuperados relevantes do número total do curso recuperado, então a precisão é capaz de indicar o esforço que o usuário teria para analisar uma busca, isso significa que se em 60% dos itens retornados fossem relevante o usuário teria teoricamente desperdiçado 40% do seu esforço analisando os itens relevantes.

O Recall (abrangência ou revocação) mede a habilidade do sistema composto documentos mais relevante para o usuário com base em algumas expressões de busca utilizando a formação de busca ou seja seria os itens recuperados relevantes com os possíveis itens recuperadas, esses possíveis itens como não são conhecidos é uma medida estatística.

F-Score é um balanceamento uma média harmônica entre a precisão e o Recall que ele dá o quanto que essa medida de precisão e esforço foi feito pra poder fazer o reconhecimento das entidades.

A metodologia utilizamos a ferramentas spaCy e a base de dados HAREM e fizemos alguns testes utilizando o spaCy impuro na sua versão 2.0 no primeiro modelo, segundo modelo a gente usou o modelo original com 500 internações e 20 interações de dados de localidade, o terceiro modelo gerado com base no original acrescido com 20 interações de dados de treino, o modelo em branco acrescido com 20 iterações de dados de treino, um novo modelo HAREM com as interações de 2 a 110 e o spaCy com framework Rasa MLU.

Os resultados do REN para o RIF reconhecimento de entidades é de 1 a 6 esses modelos, a gente conseguiu esse quadro de resultados com F-Score até 30, o Recall até 38 no modelo 3 e uma precisão até 27.5 com um modelo 3, então o modelo 3, se a gente retornar para ver seria o modelo gerado com base na pesquisa acrescido com 20 iterações de treinamento, foi o modelo que melhor teve resultado, entretanto ainda é um estudo no qual a gente percebeu que realmente nós precisamos de mais dados e testar outros corpus para poder melhorar a precisão e chegar em uma precisão de 60% que é o que tem na literatura.

Então a gente realizou alguns testes com Rasa MLU, e a gente teve ali é uma identificação de 162 entidades com uma precisão de 60,98%, essa precisão é uma precisão que está de acordo com que se alcança para a literatura em português ao reconhecimento da entidade em português, então nosso trabalho está de acordo com que se tem ainda na literatura.

Bom para qualquer dúvida podem entrar em contato diretamente comigo, esse é o meu e-mail gustavo.araujo@ufsc.br.


Apoio

Universidade Federal da Paraíba (UFPB)Universidade Estadual Paulista (UNESP)Universidade Federal de Santa Catarina (UFSC)Revista Eletrônica Competências Digitais para Agricultura Familiar (RECoDAF)Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)