Information, Data and Technology

Guilherme Ataíde Dias

Federal University of Paraíba (UFPB) | guilhermeataide@ccsa.ufpb.br | https://orcid.org/0000-0001-6576-0017 | https://lattes.cnpq.br/9553707435669429

Undergraduate in Computer Science from the Federal University of Paraíba UFPB Campus II (1990), Bachelor in Law by the University Center of João Pessoa UNIPE (2010), Master in Organization & Management by Central Connecticut State University? CCSU (1995), PhD in Information Science (Communication Sciences) at the University of São Paulo? USP (2003) and Post-Doctor by UNESP (2011). He is currently Associate Professor III at the Federal University of Paraíba, where he holds a degree in Information Science. He is involved with Post-Graduation through the Post-Graduate Program in Information Science and Postgraduate Program in Administration, both of UFPB. Has research interest in the following themes: Knowledge Representation; Information Architecture; Information security; Information and Communication Technologies; Health Information; Social networks; Free software; Law, Ethics and Intellectual Property in Cyberspace; Scientific Data Management; Legal Information; He is currently Research Productivity Scholar (PQ) at CNPq.

Moisés Lima Dutra

Federal University of Santa Catarina (UFSC) | moises.dutra@ufsc.br | https://orcid.org/0000-0003-1000-5553 | https://lattes.cnpq.br/1973469817655034

Professor, Federal University of Santa Catarina, Department of Information Science. PhD in Computing from the University of Lyon 1, France (2009). Master in Electrical Engineering, subarea Automação e Sistemas (2005) and Bachelor in Computing (1998) from the Federal University of Santa Catarina. His current lines of research are related to Applied Artificial Intelligence (Machine Learning, Deep Learning, Semantic Web, Linked Data) and Data Science (Big Data, IoT). It is linked to the research group ITI-RG (Intelligence, Technology and Information - Research Group).

Fábio Mosso Moreira

São Paulo State University (UNESP) | fabio.moreira@unesp.br | https://orcid.org/0000-0002-9582-4218 | https://lattes.cnpq.br/1614493890723021

Undergraduate degree in Business Administration from the Faculty of Sciences and Engineering (UNESP / Tupã). Master degree in Information Science - (UNESP / Marília). PhD student in the Graduate Program in Information Science (UNESP / Marília). Member of the Research Group - GPNTI (UNESP / Marília) and GPTAD (UNESP / Tupã). Collaborator of the Project Digital Skills for Family Farming (CoDAF). Content editor of the Electronic Journal Digital Skills for Family Farming (RECoDAF). Professional Technical Skill in Informatics from ETEC Massuyuki Kawano - Centro Paula Souza de Tupã. Professional experience in the ERP Information Systems for Logistics Operations. Works with research in Information Science, studying the use of digital resources for access to government data of Public Policies in the context of the small farmer.

Fernando de Assis Rodrigues

Federal University of Pará (UFPA) | fernando@rodrigues.pro.br | https://orcid.org/0000-0001-9634-1202 | https://lattes.cnpq.br/5556499513805582

Professor at Federal University of Pará. Ph.D. and M.S. in Information Science, Post-bachelor in Internet Systems and Bachelor of Science in Information Systems. Most of his experience is based on works developed as a Full Stack Developer and Database administrator, especially with Python, Java and PHP programming languages, as well as MySQL, MariaDB, SQLite3 and PostgreSQL databases. Also, he lectured classes related to the context of Computer Science to undergraduate and graduate students at UNESP. Currently, He workd as a postdoc researcher at UNESP labs, working in data studies.

Ricardo César Gonçalves Sant'Ana

São Paulo State University (UNESP) | ricardo.santana@unesp.br | https://orcid.org/0000-0003-1387-4519 | https://lattes.cnpq.br/1022660730972320

Associate Professor at the Paulista State University - UNESP, Faculty of Sciences and Engineering - FCE, Campus de Tupã, on an exclusive dedication, where he is Chairman of the Monitoring and Evaluation Committee of the Graduate Courses - CAACG, Local Coordinator of the Center for Studies and Pedagogical Practices - CENEPP and Local Ombudsman. Professor of the Post-Graduate Program in Information Science of the Paulista State University, Marília Campus. Graduated in Mathematics and Pedagogy, Master in Information Science (2002), Doctorate in Information Science (2008) and Freelance in Management Information Systems by UNESP (2017). He has specialized in Object Orientation (1996) and Management of Information Systems (1998). Ad hoc advisor of periodicals and development agencies. Member of the Research Group - New Technologies in Information GPNTI-UNESP. Has experience in the area of ??Computer Science, currently conducts research focused on: information science and information technology, investigating issues related to the Data Life Cycle, Transparency and Information Flow in Productive Chains. He worked as a professor at Faccat Faculdade de Ciências Contábeis e Administração de Tupã, where he coordinated a course of Administration with Qualification in Systems Analysis for ten years and the course of Licenciatura in Computing. He worked in the private sector as a consultant, integrator and researcher of new information technologies from 1988 to 2004.


Organizators

Guilherme Ataíde Dias

Federal University of Paraíba (UFPB) | guilhermeataide@ccsa.ufpb.br | https://orcid.org/0000-0001-6576-0017 | https://lattes.cnpq.br/9553707435669429

Undergraduate in Computer Science from the Federal University of Paraíba UFPB Campus II (1990), Bachelor in Law by the University Center of João Pessoa UNIPE (2010), Master in Organization & Management by Central Connecticut State University? CCSU (1995), PhD in Information Science (Communication Sciences) at the University of São Paulo? USP (2003) and Post-Doctor by UNESP (2011). He is currently Associate Professor III at the Federal University of Paraíba, where he holds a degree in Information Science. He is involved with Post-Graduation through the Post-Graduate Program in Information Science and Postgraduate Program in Administration, both of UFPB. Has research interest in the following themes: Knowledge Representation; Information Architecture; Information security; Information and Communication Technologies; Health Information; Social networks; Free software; Law, Ethics and Intellectual Property in Cyberspace; Scientific Data Management; Legal Information; He is currently Research Productivity Scholar (PQ) at CNPq.

Moisés Lima Dutra

Federal University of Santa Catarina (UFSC) | moises.dutra@ufsc.br | https://orcid.org/0000-0003-1000-5553 | https://lattes.cnpq.br/1973469817655034

Professor, Federal University of Santa Catarina, Department of Information Science. PhD in Computing from the University of Lyon 1, France (2009). Master in Electrical Engineering, subarea Automação e Sistemas (2005) and Bachelor in Computing (1998) from the Federal University of Santa Catarina. His current lines of research are related to Applied Artificial Intelligence (Machine Learning, Deep Learning, Semantic Web, Linked Data) and Data Science (Big Data, IoT). It is linked to the research group ITI-RG (Intelligence, Technology and Information - Research Group).

Fábio Mosso Moreira

São Paulo State University (UNESP) | fabio.moreira@unesp.br | https://orcid.org/0000-0002-9582-4218 | https://lattes.cnpq.br/1614493890723021

Undergraduate degree in Business Administration from the Faculty of Sciences and Engineering (UNESP / Tupã). Master degree in Information Science - (UNESP / Marília). PhD student in the Graduate Program in Information Science (UNESP / Marília). Member of the Research Group - GPNTI (UNESP / Marília) and GPTAD (UNESP / Tupã). Collaborator of the Project Digital Skills for Family Farming (CoDAF). Content editor of the Electronic Journal Digital Skills for Family Farming (RECoDAF). Professional Technical Skill in Informatics from ETEC Massuyuki Kawano - Centro Paula Souza de Tupã. Professional experience in the ERP Information Systems for Logistics Operations. Works with research in Information Science, studying the use of digital resources for access to government data of Public Policies in the context of the small farmer.

Fernando de Assis Rodrigues

Federal University of Pará (UFPA) | fernando@rodrigues.pro.br | https://orcid.org/0000-0001-9634-1202 | https://lattes.cnpq.br/5556499513805582

Professor at Federal University of Pará. Ph.D. and M.S. in Information Science, Post-bachelor in Internet Systems and Bachelor of Science in Information Systems. Most of his experience is based on works developed as a Full Stack Developer and Database administrator, especially with Python, Java and PHP programming languages, as well as MySQL, MariaDB, SQLite3 and PostgreSQL databases. Also, he lectured classes related to the context of Computer Science to undergraduate and graduate students at UNESP. Currently, He workd as a postdoc researcher at UNESP labs, working in data studies.

Ricardo César Gonçalves Sant'Ana

São Paulo State University (UNESP) | ricardo.santana@unesp.br | https://orcid.org/0000-0003-1387-4519 | https://lattes.cnpq.br/1022660730972320

Associate Professor at the Paulista State University - UNESP, Faculty of Sciences and Engineering - FCE, Campus de Tupã, on an exclusive dedication, where he is Chairman of the Monitoring and Evaluation Committee of the Graduate Courses - CAACG, Local Coordinator of the Center for Studies and Pedagogical Practices - CENEPP and Local Ombudsman. Professor of the Post-Graduate Program in Information Science of the Paulista State University, Marília Campus. Graduated in Mathematics and Pedagogy, Master in Information Science (2002), Doctorate in Information Science (2008) and Freelance in Management Information Systems by UNESP (2017). He has specialized in Object Orientation (1996) and Management of Information Systems (1998). Ad hoc advisor of periodicals and development agencies. Member of the Research Group - New Technologies in Information GPNTI-UNESP. Has experience in the area of ??Computer Science, currently conducts research focused on: information science and information technology, investigating issues related to the Data Life Cycle, Transparency and Information Flow in Productive Chains. He worked as a professor at Faccat Faculdade de Ciências Contábeis e Administração de Tupã, where he coordinated a course of Administration with Qualification in Systems Analysis for ten years and the course of Licenciatura in Computing. He worked in the private sector as a consultant, integrator and researcher of new information technologies from 1988 to 2004.


Entity named recognition in financial intelligence report

Pages: 291 - 302

Authors

Jairo Santana

Federal University of Santa Catarina (UFSC) | jairo.santana@gmail.com |

Diefferson K. Moro

Federal University of Santa Catarina (UFSC) | differson.moro@gmail.com |

Graduation in Information and Communication Technologies - UFSC

Rogério de Aquino Silva

Federal University of Santa Catarina (UFSC) | rogerriomp@gmail.com |

Vinicius Faria Culmant Ramos

Federal University of Santa Catarina (UFSC) | v.ramos@ufsc.br | https://orcid.org/0000-0002-8319-743X | https://lattes.cnpq.br/0442142220296336

Professor of the Federal University of Santa Catarina (UFSC) Araranguá campus. He holds a Bachelor's degree in Computer Science from UFRJ, a Master's Degree in Systems and Computer Engineering from COPPE / UFRJ and a Doctorate in Systems and Computer Engineering with a co-tutelary agreement between COPPE / UFRJ and the Eindhoven University of Technology (HOL) . Currently, he works with research and development of methodologies and technological tools for the treatment and analysis of large amounts of data (Big Data) in social networks. His researches are also focused on the teaching of computer programming and the development of constructivist learning environments in presence and distance with the use of new digital technologies of information and communication. It mainly works in the following subjects: educational technology, distance education, new Web technologies, adaptive systems, evaluation of adaptive systems, programming and treatment teaching and big data analysis.

Gustavo Medeiros de Araujo

Federal University of Santa Catarina (UFSC) | gustavo.araujo@ufsc.br | https://orcid.org/0000-0003-0572-6997 | https://lattes.cnpq.br/2609254559240670

PhD in Automation and Systems Engineering at UFSC (2013) and Master in Computer Science at UFSC (2007). He has experience in Computer Science and Automation, with emphasis on Data Science, Machine and Deep Learning and Cyber-Physical System. It has two lines of research: i) Applications with Data Science, Machine and Deep Learning and ii) Wireless Sensor Networks (WSNs) and MANTEs protocols. In addition to his academic background, he has experience in the software industry by developing information systems for the federal government and systems for the automation industry. He is currently associate professor A2 at the Federal University of Santa Catarina, member of the Laboratory of Software and Hardware Integration (LISHA) and member of the Laboratory of Engineering and Data Science (LECID).

Video Transcription

Bom, esse trabalho “Reconhecimento de entidades nomeadas em relatório de inteligência financeira”, foi realizado na Universidade Federal de Santa Catarina no departamento de ciência da informação. Os autores são: Jairo Brandão de Santana, Prof. Dr. Gustavo Medeiros de Araujo e Prof. Dr. Vinicius Faria Culmant Ramos. Trabalho aceito pelo WIDAT 2018 - Workshop de Informação Dados e Tecnologia.

Trabalho motivado pela questão de lavagem de dinheiro, no qual a origem da lavagem de dinheiro começou pelas máfias e organizações criminosas do início do século 20, aumentou com o surgimento dos países fiscais com dinheiros ilícito tinha o seu destino, aumentou bastante com a questão do narcotráfico que o volume de dinheiro gerado é muito grande, dinheiro que precisava ser espalhado em um lugar. Então “É uma forma genérica de referir-se ao processo ou conjunto de operações de ocultar a origem de dinheiro ou dos bens resultantes das atividades delitivas e integrá-los no sistema econômico ou financeiro, em operações capazes de converter o dinheiro sujo em dinheiro limpo” (Lustosa, 2009, p.1).

Lavagem de dinheiro em algumas etapas apresentadas, ocultação de dinheiro no recebimento de dinheiro é colocado em instituições financeiras e a dissimulação a distribuição entre as instituições financeiras, empresas e offshore; depois a integração com a utilização desse dinheiro ilícito em ativos listados para caracterizar com a atitude do dinheiro.

A Convenção de Viena aconteceu em 1988, criada pela ONU para poder tentar mitigar esse problema de lavagem de dinheiro, financiamento de terrorismo; foram feitas várias atribuições como identificar os riscos de desenvolver políticas e combater a lavagem de dinheiro e o financiamento do terrorismo e a proliferação, aplicar medidas preventivas no setor financeiro, estabelecer poderes, aumentar a transparência e melhorar a cooperação internacional.

No Brasil surgiu em 1998 a lei de lavagem de dinheiro, a criação da COAF - Conselho de Controle de Atividades Financeiras, no caso aqui a nossa entidade que examina todas as atividades que são suspeitas para poder fazer uma investigação. Eles fazem uma investigação preliminar e dependendo das atividades suspeitas eles enviam esses relatórios das atividades suspeitas para as autoridades competentes.

Há uma comunicação entre o setor financeiro e a COAF no qual acima de qualquer operação acima de 150 mil, ela deve ser registrada e deve ser enviada para o COAF com pelo menos três dias de antecedência. A partir de uma análise prévia das instituições financeiras sobre as operações suspeitas essas instituições enviam para o COAF essas operações a qual ela faz uma pré análise dessas operações e gera um relatório, vantagem desse relatório que é o relatório de inteligência financeira que comunica as autoridades com essas informações.

Estão na polícia federal existe uma área de repressão aos crimes financeiros que recebe os RIF’s que são relatório de inteligência financeira e faz uma análise, tábula o resultado do RIF’s e também uma análise de diagramação. Então esse é o formato do relatório recebido pelo agente financeiro com várias informações além de empresas e o montante de dinheiro operacionalizado e as empresas que estão recebendo. É uma dependência muito grande para o desempenho da análise do RIF’s de uma dependência do agente, ele tem que ser experiente e tem que também lembrar se aquela operação é parecido com outra operação que ele viu em outro RIF’s, há um descasamento de informações entre RIF’s e a própria análise que pode ser bastante custosa dependendo do tamanho.

Após análise inicial o agente realiza uma tabulação dos RIF’s colocando ali a origem de quem depositou, o depositante, a pessoa que vai receber o valor, o tipo de operação e um período, então ele faz manualmente essa análise e assim esse preenchimento.

A proposta é fazer o reconhecimento de entidades, eventos através de mineração de texto e armazenar em uma base de dados estruturados. Um processo de mineração de texto ele envolve três etapas principais: o pré-processamento de documentos, extração de padrões e agrupamentos de texto e avaliação do conhecimento.

Utilizamos as três métricas mais conhecidas para avaliar a mineração de textos, a precisão, Recall, F-Score. A precisão mede habilidades do sistema em manter os documentos relevantes, fora o resultado da consulta ou seja fórmula dos documentos recuperados relevantes do número total do curso recuperado, então a precisão é capaz de indicar o esforço que o usuário teria para analisar uma busca, isso significa que se em 60% dos itens retornados fossem relevante o usuário teria teoricamente desperdiçado 40% do seu esforço analisando os itens relevantes.

O Recall (abrangência ou revocação) mede a habilidade do sistema composto documentos mais relevante para o usuário com base em algumas expressões de busca utilizando a formação de busca ou seja seria os itens recuperados relevantes com os possíveis itens recuperadas, esses possíveis itens como não são conhecidos é uma medida estatística.

F-Score é um balanceamento uma média harmônica entre a precisão e o Recall que ele dá o quanto que essa medida de precisão e esforço foi feito pra poder fazer o reconhecimento das entidades.

A metodologia utilizamos a ferramentas spaCy e a base de dados HAREM e fizemos alguns testes utilizando o spaCy impuro na sua versão 2.0 no primeiro modelo, segundo modelo a gente usou o modelo original com 500 internações e 20 interações de dados de localidade, o terceiro modelo gerado com base no original acrescido com 20 interações de dados de treino, o modelo em branco acrescido com 20 iterações de dados de treino, um novo modelo HAREM com as interações de 2 a 110 e o spaCy com framework Rasa MLU.

Os resultados do REN para o RIF reconhecimento de entidades é de 1 a 6 esses modelos, a gente conseguiu esse quadro de resultados com F-Score até 30, o Recall até 38 no modelo 3 e uma precisão até 27.5 com um modelo 3, então o modelo 3, se a gente retornar para ver seria o modelo gerado com base na pesquisa acrescido com 20 iterações de treinamento, foi o modelo que melhor teve resultado, entretanto ainda é um estudo no qual a gente percebeu que realmente nós precisamos de mais dados e testar outros corpus para poder melhorar a precisão e chegar em uma precisão de 60% que é o que tem na literatura.

Então a gente realizou alguns testes com Rasa MLU, e a gente teve ali é uma identificação de 162 entidades com uma precisão de 60,98%, essa precisão é uma precisão que está de acordo com que se alcança para a literatura em português ao reconhecimento da entidade em português, então nosso trabalho está de acordo com que se tem ainda na literatura.

Bom para qualquer dúvida podem entrar em contato diretamente comigo, esse é o meu e-mail gustavo.araujo@ufsc.br.


Support

Federal University of Paraíba (UFPB)São Paulo State University (UNESP)Federal University of Santa Catarina (UFSC)Electronic Journal Digital Skills for Family Farming (RECoDAF)National Council for Scientific and Technological Development (CNPq)