Classificação de textos - machine learning - Python - Súmulas STF - PLN

Subscreva o canal:

Descrição

Trabalho de classificação automática de textos, utilizando técnicas de Processamento de Linguagem Natural (PLN e IA) e os algoritmos Kmeans e Bert. Nesse experimento, foram classificadas as súmulas do Supremo Tribunal Federal (STF) em três grupos: Direito Tributário, Direito Penal e Outros ramos. O vídeo apresenta uma abordagem prática para o agrupamento de textos, focando especificamente nas súmulas de jurisprudência do Supremo Tribunal Federal (STF). O autor orienta os espectadores a seguir um guia passo a passo que começa com a instalação das bibliotecas necessárias para implementar o algoritmo K-means com a vetorização BERT. Com a intenção de melhorar a precisão dos agrupamentos, ele filtra as súmulas para incluir apenas aquelas vigentes a partir de outubro de 1988. Após essa etapa, o autor enfatiza a importância da limpeza de dados, removendo stop words e pontuações, o que é crucial para aumentar a relevância dos resultados do agrupamento. Em seguida, o autor utiliza a Análise de Componentes Principais (PCA) para reduzir a dimensionalidade dos dados vetorizados, permitindo uma visualização mais clara dos agrupamentos. Ele apresenta gráficos que ilustram como as súmulas se distribuem nos diferentes clusters, destacando temas como direito tributário e direito penal. A conclusão do vídeo ressalta a eficiência do processo e como a escolha das stop words a serem filtradas deve ser cuidadosa, pois isso pode variar dependendo do contexto da análise. O autor sugere que, embora o algoritmo K-means tenha mostrado bons resultados, a escolha dos parâmetros e a pré-processamento dos dados são fundamentais para alcançar uma melhor compreensão dos textos. Tags: #Agrupamento de textos #Algoritmo K-means #Vetorização BERT #Análise de dados #Análise de Componentes Principais ( PCA ) #Jurisprudência STF #Stop words #Ciência de dados #Machine Learning #Processamento de linguagem natural #Direito tributário #Direito penal #Python #DataFrame #Análise de dados em Python #Inteligência Artificial ( IA ) #SciKit-learn

Palavras-chave

PLN, KMeans, BERT, NLP, Processamento de linguagem natural, classificação de texto por IA, AI, Súmulas, PCA, Vetorização, agrupamento, clusterização

Estatísticas

👁️ 559 visualizações

👍 139 curtidas

📝 4 comentários

14min 59s

🗓️ 23/04/2023 14:07

Voltar para Vídeos