Processamento de Linguagem Natural (PLN)

Capa do vídeo PLN Classificação textos de súmulas STF

PLN Classificação textos de súmulas STF

Trabalho de classificação automática de textos, utilizando técnicas de Processamento de Linguagem Natural (PLN e IA) e os algoritmos Kmeans e Bert. Nesse experimento, foram classificadas as súmulas do Supremo Tribunal Federal (STF) em três grupos: Direito Tributário, Direito Penal e Outros ramos. O vídeo apresenta uma abordagem prática para o agrupamento de textos, focando especificamente nas súmulas de jurisprudência do Supremo Tribunal Federal (STF). O autor orienta os espectadores a seguir um guia passo a passo que começa com a instalação das bibliotecas necessárias para implementar o algoritmo K-means com a vetorização BERT. Com a intenção de melhorar a precisão dos agrupamentos, ele filtra as súmulas para incluir apenas aquelas vigentes a partir de outubro de 1988. Após essa etapa, o autor enfatiza a importância da limpeza de dados, removendo stop words e pontuações, o que é crucial para aumentar a relevância dos resultados do agrupamento. Em seguida, o autor utiliza a Análise de Componentes Principais (PCA) para reduzir a dimensionalidade dos dados vetorizados, permitindo uma visualização mais clara dos agrupamentos. Ele apresenta gráficos que ilustram como as súmulas se distribuem nos diferentes clusters, destacando temas como direito tributário e direito penal. A conclusão do vídeo ressalta a eficiência do processo e como a escolha das stop words a serem filtradas deve ser cuidadosa, pois isso pode variar dependendo do contexto da análise. O autor sugere que, embora o algoritmo K-means tenha mostrado bons resultados, a escolha dos parâmetros e a pré-processamento dos dados são fundamentais para alcançar uma melhor compreensão dos textos. Tags: #Agrupamento de textos #Algoritmo K-means #Vetorização BERT #Análise de dados #Análise de Componentes Principais ( PCA ) #Jurisprudência STF #Stop words #Ciência de dados #Machine Learning #Processamento de linguagem natural #Direito tributário #Direito penal #Python #DataFrame #Análise de dados em Python #Inteligência Artificial ( IA ) #SciKit-learn

Publicado em: 23/04/2023

Visualizações: 594

Capa do vídeo PLN - Processamento de Linguagem Natural básico

PLN - Processamento de Linguagem Natural básico

Resumo dos principais temas em Processamento de Linguagem Natural (PLN ou NLP).

Publicado em: 01/05/2025

Visualizações: 655

Capa do vídeo PLN: Visualizando 3d embeddings

PLN: Visualizando 3d embeddings

Apresentam-se códigos para representação gráfica de palavras em vetores 3D (embeddings). A representação em 3D de vetores multidimensionais utilizou a técnica de PCA (Principal Component Analysis ou Análise de Componentes Principais), que reduz a dimensionalidade de uma matriz à projeção dos componentes mais significativos, ou seja, daqueles que mais contribuem, em cada caso, para o direcionamento do respectivo vetor. Espera-se, teoricamente, que palavras com semântica aproximada (exemplo: prédio, edifício, construção, apartamento...) tenham vetores próximos entre si. Os códigos fonte utilizados estão disponíveis no perfil do Github: https://github.com/robertocsa/Natural-Language-Processing-NLP- Vídeo que estava vendo e serviu-me de inspiração para esta apresentação. Aliás, recomendo tanto assistir ao vídeo como seguir o canal em questão (3Blue1Brown): https://www.youtube.com/watch?v=LPZh9BOjkQs&t=40s

Publicado em: 26/05/2025

Visualizações: 13

Capa do vídeo PLN operacoes vetoriais

PLN operacoes vetoriais

Visualização de representações de palavras em vetores 3D. Operações vetoriais entre palavras. PLN Decomposição PCA. SKLearn Spacy Similaridade de Cosseno Normalização de vetores pt_core_news_md

Publicado em: 04/01/2025

Visualizações: 11

Ver todas as playlists