Processamento de Linguagem Natural (PLN)

PLN Classificação textos de súmulas STF

Trabalho de classificação automática de textos, utilizando técnicas de Processamento de Linguagem Natural (PLN e IA) e os algoritmos Kmeans e Bert. Nesse experimento, foram classificadas as súmulas do Supremo Tribunal Federal (STF) em três grupos: Direito Tributário, Direito Penal e Outros ramos. O vídeo apresenta uma abordagem prática para o agrupamento de textos, focando especificamente nas súmulas de jurisprudência do Supremo Tribunal Federal (STF). O autor orienta os espectadores a seguir um guia passo a passo que começa com a instalação das bibliotecas necessárias para implementar o algoritmo K-means com a vetorização BERT. Com a intenção de melhorar a precisão dos agrupamentos, ele filtra as súmulas para incluir apenas aquelas vigentes a partir de outubro de 1988. Após essa etapa, o autor enfatiza a importância da limpeza de dados, removendo stop words e pontuações, o que é crucial para aumentar a relevância dos resultados do agrupamento. Em seguida, o autor utiliza a Análise de Componentes Principais (PCA) para reduzir a dimensionalidade dos dados vetorizados, permitindo uma visualização mais clara dos agrupamentos. Ele apresenta gráficos que ilustram como as súmulas se distribuem nos diferentes clusters, destacando temas como direito tributário e direito penal. A conclusão do vídeo ressalta a eficiência do processo e como a escolha das stop words a serem filtradas deve ser cuidadosa, pois isso pode variar dependendo do contexto da análise. O autor sugere que, embora o algoritmo K-means tenha mostrado bons resultados, a escolha dos parâmetros e a pré-processamento dos dados são fundamentais para alcançar uma melhor compreensão dos textos. Tags: #Agrupamento de textos #Algoritmo K-means #Vetorização BERT #Análise de dados #Análise de Componentes Principais ( PCA ) #Jurisprudência STF #Stop words #Ciência de dados #Machine Learning #Processamento de linguagem natural #Direito tributário #Direito penal #Python #DataFrame #Análise de dados em Python #Inteligência Artificial ( IA ) #SciKit-learn Veja o código e outros sobre PLN (NLP) em: https://github.com/robertocsa/Natural-Language-Processing-NLP

Publicado em: 23/04/2023

PLN - Processamento de Linguagem Natural básico

Resumo dos principais temas em Processamento de Linguagem Natural (PLN ou NLP).

Publicado em: 01/05/2025

PLN: Visualizando 3d embeddings

Apresentam-se códigos para representação gráfica de palavras em vetores 3D (embeddings). A representação em 3D de vetores multidimensionais utilizou a técnica de PCA (Principal Component Analysis ou Análise de Componentes Principais), que reduz a dimensionalidade de uma matriz à projeção dos componentes mais significativos, ou seja, daqueles que mais contribuem, em cada caso, para o direcionamento do respectivo vetor. Espera-se, teoricamente, que palavras com semântica aproximada (exemplo: prédio, edifício, construção, apartamento...) tenham vetores próximos entre si. Os códigos fonte utilizados estão disponíveis no perfil do Github: https://github.com/robertocsa/Natural-Language-Processing-NLP- Vídeo que estava vendo e serviu-me de inspiração para esta apresentação. Aliás, recomendo tanto assistir ao vídeo como seguir o canal em questão (3Blue1Brown): https://www.youtube.com/watch?v=LPZh9BOjkQs&t=40s

Publicado em: 26/05/2025

PLN operacoes vetoriais

Visualização de representações de palavras em vetores 3D. Operações vetoriais entre palavras. PLN Decomposição PCA. SKLearn Spacy Similaridade de Cosseno Normalização de vetores pt_core_news_md

Publicado em: 04/01/2025

Ver todas as playlists