TÉCNICAS DE MINERAÇÃO DE DADOS PARA IDENTIFICAR PADRÕES SUSPEITOS EM TRANSAÇÕES FINANCEIRAS

PDF: Clique Aqui


REGISTRO DOI: 10.5281/zenodo.12539998


João Ricardo Socca Junior¹


RESUMO
Com o rápido crescimento tecnológico, as compras online se tornaram indispensáveis, oferecendo praticidade à população. No entanto, esse aumento também resultou no crescimento significativo de fraudes. O combate de atividades fraudulentas é uma realidade na qual os fundadores de plataformas têm aprimorado cada vez mais suas táticas, e as empresas, por sua vez, buscam adotar abordagens proativas e avançadas para manter a integridade das transações online. Este projeto tem como objetivo não apenas compreender os diferentes tipos de fraudes, mas também analisar seus riscos inerentes. A ideia desse projeto visa compreender os diferentes tipos de fraudes, analisar seus riscos e desenvolver métodos de detecção eficazes usando técnicas de Machine Learning. Isso é crucial, pois as empresas precisam adotar abordagens avançadas para prever e combater ataques fraudulentos, garantindo transações online mais seguras e confiáveis.
Palavras-chave:Machine Learning; Cartão de crédito; Fraudes.

ABSTRACT
With the rapid technological growth, online shopping has become indispensable, offering convenience to the population. However, this increase has also led to a significant rise in fraud. The combat against fraudulent activities is a reality in which platform founders continuously refine their tactics, and companies, in turn, strive to adopt proactive and advanced approaches to maintain the integrity of online transactions. This project aims not only to comprehend the different types of fraud but also to analyze their inherent risks. The concept of this project is to understand the various forms of fraud, assess their risks, and develop effective detection methods using Machine Learning techniques. This is crucial as companies need to embrace advanced approaches to predict and combat fraudulent attacks, ensuring safer and more reliable online transactions.
Keywords: Machine learning; Credit card; Fraud.

1 Introdução

Com a constante evolução tecnológica, a transformação digital tem proporcionado praticidade e eficácia no cotidiano de pessoas e empresas. No entanto, a criatividade dos criminosos também tem aumentado, se aproveitando da vulnerabilidade de sistemas para aplicar golpes online. A segurança em ambientes comerciais se torna crucial para preservar a confiabilidade das empresas e mitigar os riscos associados (GUIMARÃES, 2022).

No contexto do comércio eletrônico, os atos fraudulentos podem envolver uma variedade de práticas, como compras não autorizadas por usuários legítimos, clonagem de cartões de crédito, formação de cartéis para manipulação de preços por parte dos comerciantes, roubo de contas de usuários, uso indevido de sites, entre outros. Essas atividades prejudicam a confiança dos consumidores, afetam a integridade das transações e demandam medidas robustas de segurança, incluindo a utilização de tecnologias avançadas de detecção de fraudes e a implementação de políticas rigorosas para prevenção e combate a essas práticas ilícitas (MATTOS, 2022).

As técnicas de Machine Learning (ML) têm se destacado como uma abordagem crucial na detecção de padrões em dados, possibilitando a automação de tarefas complexas e a realização de previsões. No contexto de segurança, incluindo a detecção de fraudes no comércio eletrônico, o uso de algoritmos de ML permite a análise de grandes volumes de dados para identificar comportamentos suspeitos ou padrões não usuais. Essa capacidade de adaptação e aprendizado contínuo torna o ML um diferencial significativo em diversas áreas, incluindo a segurança cibernética, contribuindo para a eficácia na detecção e prevenção de atividades fraudulentas (FREITAS; JUNIOR, 2019).

O trabalho menciona a aplicação da técnica de Mineração de Dados, com ênfase na detecção de fraudes em pagamentos online no Brasil, citando trabalhos anteriores como (JUNIOR, 2018) e (JÚNIOR et al., 2012). No contexto específico deste trabalho, se busca utilizar técnicas de ML no processo de Knowledge Discovery in Databases (KDD) para identificar de maneira eficaz e rápida possíveis atividades fraudulentas em pedidos de pagamentos online. A condução do experimento se dará em um ambiente de teste construído a partir da compilação de dados anônimos, empregando um conjunto de dados públicos como principal fonte de informação.

1.1 Tema

Esse trabalho tem como objetivo principal desenvolver métodos de detecção eficazes, usando técnicas de Machine Learning para prevenir fraudes bancárias.

A Seção 1 aborda conceitos relacionados a fraudes, apresentando o tema, o problema, os objetivos (geral e específicos) e a justificativa do problema. A Seção 2 tem o referencial teórico, explorando trabalhos similares que utilizam modelos de ML na detecção de fraudes. Na Seção 3, se detalha o procedimento metodológico adotado. Por fim, a Seção 4 apresenta o cronograma do estudo desenvolvido.

1.2 Problema

Um dos maiores desafios ao identificar padrões suspeitos em transações financeiras por meio de técnicas de Machine Learning é a constante evolução das táticas de fraude. Os fraudadores são ágeis em ajustar e modificar suas abordagens para evitar detecção. Além disso, a presença de dados desbalanceados pode ser um problema. Muitas vezes, transações fraudulentas representam uma pequena parcela do conjunto de dados total. Isso pode levar o modelo a ser viésado em direção às transações normais, dificultando a identificação de padrões relacionados a atividades fraudulentas.

1.3 Objetivos

Tem como objetivo realizar o uso de técnicas de machine learning na identificação de padrões suspeitos em transações financeiras, visando a minimização de falsos positivos, e estabelecer um ciclo de melhoria contínua para enfrentar os desafios em constante evolução do cenário de segurança financeira. Deste modo, os modelos de máquina serão postos em prática sobre um conjunto de dados para observar o grau de aprendizado sob seu respectivo treinamento, para então obter uma validação adequada que possibilite ajudar a aplicação destes métodos no mercado financeiro com mais eficiência.

1.3.1 Objetivo geral

O objetivo geral deste estudo é aplicar e avaliar técnicas de mineração de dados para a identificação de padrões suspeitos em transações financeiras. A pesquisa visa aprimorar a detecção de atividades fraudulentas por meio da análise de dados transacionais, contribuindo para o aprimoramento dos sistemas de segurança e prevenção de fraudes no setor financeiro.

1.3.2 Objetivos específicos

  • Escolher técnicas de mineração de dados, incluindo algoritmos e pré-processamento, para analisar transações financeiras;

  • Coletar e preparar dados de transações financeiras garantindo qualidade e relevância para análises;

  • Comparar a confiabilidade entre modelos;

  • Demonstrar a eficiência de modelos para tipos de fraudes distintas;

1.4 Justificativa

A detecção de fraudes em transações financeiras é uma preocupação crucial para instituições e usuários. Devido ao crescente volume de dados, a aplicação de técnicas de mineração de dados se torna essencial. A justificativa desse trabalho visa desenvolver e aprimorar métodos que possam identificar padrões suspeitos, contribuindo para a segurança e integridade das operações financeiras, buscando fornecer insights valiosos e ferramentas práticas para combater atividades fraudulentas.

O desafio contínuo é que essas ameaças se tornam cada dia mais complexas, devido à constante evolução de ataques. A utilização de modelos eficientes de aprendizado de máquina é um passo importante para se identificar transações fraudulentas. Além de reduzir prejuízos financeiros, esses modelos fortalecem a recuperação de valores e minimizam o risco de danos à reputação da instituição. Esse enfoque não apenas protege os interesses financeiros, mas contribui para a construção e manutenção de relações sólidas com os clientes.

2 Fundamentação Teórica

Nesta seção, é apresentado o embasamento teórico fundamental usado com base no princípio do contexto das fraudes, conduzindo um estudo comparativo entre os modelos de aprendizado. A Seção 2.1 contextualiza as fraudes bancárias, enquanto a Seção 2.2 aborda os modelos eficientes de machine learning no cenário financeiro. Na Seção 2.3, destaca os tipos de algoritmos que são detalhados em subseções, seguindo a seguinte ordem: Árvores de Decisão, Support Vector Machine e Naive Bayes.

2.1 Fraudes Bancárias

A fraude possui impactos tanto sociais quanto financeiros. Para as instituições, implica em custos que incluem as perdas financeiras decorrentes da transação fraudulenta e também os investimentos em análises. Desde o desenvolvimento e implementação de modelos eficazes até verificações manuais, quando necessárias. Além disso, há consequências intangíveis, como danos à reputação e insatisfação do cliente, os quais são difíceis de serem mensurados (PICCIN, 2022).

No Brasil, estima-se a ocorrência de 7 fraudes por minuto, gerando um impacto anual estimado em 3,6 bilhões de reais. No geral, estima-se que 1,34% das transações realizadas englobam algum tipo de tentativa de fraude. Esse percentual é maior em algumas regiões do país, como no Norte, chegando a 3,5% das transações. Além disso, existe também uma concentração de fraude através de aparelhos de smartphones, sendo 4,24% das principais tentativas de fraudes, devido a sua alta procura no mercado e a facilidade de revenda (CRISTOVÃO; BUSCAGLIA, 2022).

2.2 Utilização de modelos de maquinas para detecção

O treinamento de modelos de aprendizado de máquina para a detecção de fraudes em um conjunto de dados, denominado de Dataset, representa a capacidade de aprender padrões em transações bancárias. O modelo de aprendizado M1, é treinado inicialmente, e o modelo de aprendizado M2, é introduzido e treinado no mesmo conjunto de dados. A comparação de seus desempenhos ao serem aplicados ao conjunto de dados permite avaliar suas habilidades na detecção de fraudes. Os resultados podem indicar se M2 superou M1, ou se ambos possuem mesmo desempenho ou se M1 permanece superior. Essa comparação reflete a dinâmica de treinamento e avaliação de modelos de aprendizado de máquina em busca do melhor desempenho na detecção de fraudes (PICCIN, 2022).

Para enriquecer a análise e aprimorar a eficácia do processo, a comparação de resultados e a extração de conhecimento são essenciais, uma vez que, conforme destacado por (HAYKIN, 2001), o conhecimento pode e deve ser adquirido a partir do ambiente através de um processo de aprendizagem. Embora os modelos estejam em operação constante, desafios como a detecção de fraudes persistem ativamente. A complexidade desse cenário demanda uma abordagem adaptativa, pois não há uma técnica de aprendizado de máquina infalível, pois cada técnica se destaca conforme as características específicas da base de dados (PÁSCOA, 2018).

Segundo (ZHANG; MA, 2012), para otimizar a confiabilidade dos resultados e avaliar sua precisão por meio da métrica accuracy denominada de precisão para identificar eventos. A busca por eficiência e alta precisão em algoritmos é crucial na resolução de problemas, onde cada método de aprendizado individual desempenha um papel essencial, conforme a Figura 1.

Figura 1 – Agrupamento de métodos de alta predição.

Fonte: Experimentos de laboratórios.

2.3 Classificação supervisionada

O processo de aprendizagem supervisionada se desenrola em duas fases distintas, na fase inicial ocorre a aprendizagem propriamente dita, na qual a máquina aprende, e na segunda fase, essa máquina age sobre um conjunto de dados, realizando a classificação com base nos princípios dos modelos de Machine Learning. Durante o aprendizado, a máquina utiliza um conjunto de dados como referência, em seguida os classifica em categorias específicas. Os métodos de classificação, então, se materializam como ações, conhecidas como regras classificatórias, com o objetivo de separar os dados em categorias que melhor se alinham no intuito de prever resultados por meio de saídas discretas. Esse ciclo de aprendizado e classificação é fundamental para a eficácia do modelo em antecipar resultados (SOUSA, 2021).

2.3.1 Modelos de Aprendizado de Máquina

O Aprendizado de Máquina (AM) representa um conjunto de métodos computacionais que utilizam conhecimento disponível para otimizar o desempenho em tarefas específicas e aprimorar previsões em problemas diversos (MOHRI; ROSTAMIZADEH; TALWALKAR, 2012).

Enquadrado como uma subcategoria da inteligência artificial, o ML tem como objetivo principal observar dados para identificar padrões e, com base nessas observações, gerar métodos eficazes na resolução de problemas (AMARAL, 2016). No contexto dos algoritmos de AM, termos essenciais incluem objetos, que são instâncias de dados e atributos que são características que definem cada objeto. E os rótulos, que representam categorias atribuídas aos objetos, sendo relevantes em problemas de classificação (CRISTOVÃO; BUSCAGLIA, 2022).

2.3.2 Árvores de Decisão

O algoritmo de Árvores de Decisão, destacado neste estudo, é estruturado em um conjunto de nós diferenciados pela raiz, estabelecendo uma relação hierárquica denominada "paternidade", o que confere eficiência ao processo de aprendizado. Amplamente utilizado na análise de descrições com níveis de complexidade, sua aplicação é se estabelece entre custo e benefício, bem como pela probabilidade durante e após o treinamento (PICCIN, 2022).

Reconhecido como um modelo de inferência intuitiva devido a sua simplicidade, as arvores de decisão durante o treinamento atua com base em um conjunto de dados predefinidos, que se ramifica caso necessário, e que ao se expandir, o conjunto passa por sucessivas divisões até atingir uma condição de parada satisfatória, aplicando a estratégia "dividir para conquistar". Essa abordagem resulta na criação de subclasses que aprimoram tanto o treinamento quanto o processo de decisão, visando minimizar o erro, interferindo o mínimo possível em suas predições (GAMA et al., 2004), conforme ilustrado na Figura 2 abaixo.

Figura 2 – Visualização usando Árvores de Decisão.

Fonte: Scikit-learn: machine learning in python, 2024.

Os algoritmos de árvores de decisão são empregados em técnicas de machine learning para a detecção de transações bancárias suspeitas. Esses algoritmos formam uma estrutura de árvore com base nos dados de treinamento, representando o conhecimento adquirido. A estrutura da árvore é então utilizada para classificar transações, distinguindo entre aquelas consideradas normais e as que levantam suspeitas (LIMA, 2023). Nesse contexto, Bhattacharyya et al. (2011) afirma que os nós de decisão na árvore podem representar testes relacionados a diferentes atributos das transações, como valores, padrões de gastos, localização geográfica, entre outros. As arestas conectadas a esses nós refletem os resultados desses testes, enquanto os nós folha indicam a classificação final da transação, se é suspeita ou não.

2.3.3 Support Vector Machine (SVM)

O SVM (Support Vector Machine), incialmente proposto por (CORTES; VAPNIK, 1995), se destaca como uma abordagem versátil para desafios de classificação ou regressão, visando mitigar incertezas associadas a erros no conjunto de testes durante o aprendizado. Diferenciando de modelos mais generalistas, como Redes Neurais, o SVM foi concebido como um modelo robusto, fundamentado no estudo da probabilidade e na busca de minimizar erros durante a separação. Este algoritmo de classificação aproxima as margens de uma instância a ser classificada com as instâncias mais próximas, proporcionando uma visualização dos pontos em um plano através de retas de vetores de suporte, conforme exposto por (AMARAL, 2016).

O Support Vector Machine (SVM) é um método de classificação adequado para problemas linearmente separáveis, onde as classes podem ser delimitadas por uma fronteira linear. No entanto, mesmo em conjuntos de dados não linearmente separáveis, o SVM pode ser aplicado utilizando a técnica conhecida como kernel trick de acordo com (KOWALCZYK, 2017), e conforme pode ser visualizada através da Figura 3.

Figura 3 – Visualização usando Vetores de Suporte