Processamento de Linguagem Natural (PLN)

Capa do vídeo A ciência confirmou o que todos suspeitavam!

A ciência confirmou o que todos suspeitavam!

Algoritmo de Levenshtein Bem-vindo(a) ao RCSantos Scripts! Aqui você encontra conteúdos de Ciência da Computação e áreas correlatas, incluindo: Programação, Análise de Dados, Matemática, Estatística, Inteligência Artificial, Big Data, Mineração de Dados, Computação Gráfica, Edição de Áudio e Vídeo, Automatização e muito mais. Aprenda de forma prática e objetiva, com tutoriais, exemplos e dicas para aplicar no seu dia a dia ou em projetos profissionais. Inscreva-se e fique por dentro das novidades e conteúdos exclusivos sobre tecnologia e ciência de dados: https://www.youtube.com/@robertosantosscripts?sub_confirmation=1

Publicado em: 08/12/2025

Visualizações: 80

Capa do vídeo Classificação Automática de Súmulas do STF com PLN e Inteligência Artificial

Classificação Automática de Súmulas do STF com PLN e Inteligência Artificial

Trabalho de classificação automática de textos, utilizando técnicas de Processamento de Linguagem Natural (PLN e IA) e os algoritmos Kmeans e Bert. Nesse experimento, foram classificadas as súmulas do Supremo Tribunal Federal (STF) em três grupos: Direito Tributário, Direito Penal e Outros ramos. O vídeo apresenta uma abordagem prática para o agrupamento de textos, focando especificamente nas súmulas de jurisprudência do Supremo Tribunal Federal (STF). O autor orienta os espectadores a seguir um guia passo a passo que começa com a instalação das bibliotecas necessárias para implementar o algoritmo K-means com a vetorização BERT. Com a intenção de melhorar a precisão dos agrupamentos, ele filtra as súmulas para incluir apenas aquelas vigentes a partir de outubro de 1988. Após essa etapa, o autor enfatiza a importância da limpeza de dados, removendo stop words e pontuações, o que é crucial para aumentar a relevância dos resultados do agrupamento. Em seguida, o autor utiliza a Análise de Componentes Principais (PCA) para reduzir a dimensionalidade dos dados vetorizados, permitindo uma visualização mais clara dos agrupamentos. Ele apresenta gráficos que ilustram como as súmulas se distribuem nos diferentes clusters, destacando temas como direito tributário e direito penal. A conclusão do vídeo ressalta a eficiência do processo e como a escolha das stop words a serem filtradas deve ser cuidadosa, pois isso pode variar dependendo do contexto da análise. O autor sugere que, embora o algoritmo K-means tenha mostrado bons resultados, a escolha dos parâmetros e a pré-processamento dos dados são fundamentais para alcançar uma melhor compreensão dos textos. Resumo do vídeo : O vídeo apresenta uma abordagem prática para o agrupamento de textos, focando especificamente nas súmulas de jurisprudência do Supremo Tribunal Federal (STF) (0:00). O autor orienta os espectadores a seguir um guia passo a passo que começa com a instalação das bibliotecas necessárias para implementar o algoritmo K-means com a vetorização BERT (0:30). Com a intenção de melhorar a precisão dos agrupamentos, ele filtra as súmulas para incluir apenas aquelas vigentes a partir de outubro de 1988 (1:20). Após essa etapa, o autor enfatiza a importância da limpeza de dados, removendo stop words e pontuações, o que é crucial para aumentar a relevância dos resultados do agrupamento (1:50). Em seguida, o autor utiliza a Análise de Componentes Principais (PCA) para reduzir a dimensionalidade dos dados vetorizados, permitindo uma visualização mais clara dos agrupamentos (5:40). Ele apresenta gráficos que ilustram como as súmulas se distribuem nos diferentes clusters, destacando temas como direito tributário e direito penal (10:10). A conclusão do vídeo ressalta a eficiência do processo e como a escolha das stop words a serem filtradas deve ser cuidadosa, pois isso pode variar dependendo do contexto da análise (13:10). O autor sugere que, embora o algoritmo K-means tenha mostrado bons resultados, a escolha dos parâmetros e o pré-processamento dos dados são fundamentais para alcançar uma melhor compreensão dos textos (14:30). O algoritmo utilizado para clusterizar as súmulas do STF foi o K-Means, com K=3 (0:20). Ele foi usado em conjunto com a vetorização BERT para o processamento das palavras. Como Stop Words impactam? No Processamento de Linguagem Natural (PLN), as Stop Words (palavras de parada) são termos comuns como artigos, preposições e conjunções ("e", "o", "de", "com") que geralmente não adicionam valor semântico significativo ao texto. O vídeo explica que a remoção das Stop Words é crucial para (1:50-2:00): Melhorar a relevância: Elas são palavras "desnecessárias que mais atrapalham do que ajudam", e a remoção delas aumenta a significância dos termos restantes no texto. Otimizar o processamento: Ao remover essas palavras, a quantidade de dados a serem processados é reduzida, o que acelera a análise e economiza recursos computacionais. A escolha das Stop Words deve ser cuidadosa, pois seu impacto pode variar dependendo do contexto (13:10-13:20). Por exemplo, palavras como "constitucional" ou "supremo" podem ser Stop Words em análises de súmulas jurídicas, já que aparecem em quase todos os documentos e não ajudam a diferenciar os temas (13:30-14:50). No entanto, removê-las em outros contextos pode levar à perda de informações importantes ou alterar o significado da frase. Tags: #Agrupamento de textos #Algoritmo K-means #Vetorização BERT #Análise de dados #Análise de Componentes Principais ( PCA ) #Jurisprudência STF #Stop words #Ciência de dados #Machine Learning #Processamento de linguagem natural #Direito tributário #Direito penal #Python #DataFrame #Análise de dados em Python #Inteligência Artificial ( IA ) #SciKit-learn Veja o código e outros sobre PLN (NLP) em: https://github.com/robertocsa/Natural-Language-Processing-NLP

Publicado em: 23/04/2023

Visualizações: 636

Capa do vídeo PLN - Processamento de Linguagem Natural básico

PLN - Processamento de Linguagem Natural básico

Resumo dos principais temas em Processamento de Linguagem Natural (PLN ou NLP).

Publicado em: 01/05/2025

Visualizações: 701

Capa do vídeo PLN: Visualizando 3d embeddings

PLN: Visualizando 3d embeddings

Apresentam-se códigos para representação gráfica de palavras em vetores 3D (embeddings). A representação em 3D de vetores multidimensionais utilizou a técnica de PCA (Principal Component Analysis ou Análise de Componentes Principais), que reduz a dimensionalidade de uma matriz à projeção dos componentes mais significativos, ou seja, daqueles que mais contribuem, em cada caso, para o direcionamento do respectivo vetor. Espera-se, teoricamente, que palavras com semântica aproximada (exemplo: prédio, edifício, construção, apartamento...) tenham vetores próximos entre si. Os códigos fonte utilizados estão disponíveis no perfil do Github: https://github.com/robertocsa/Natural-Language-Processing-NLP- Vídeo que estava vendo e serviu-me de inspiração para esta apresentação. Aliás, recomendo tanto assistir ao vídeo como seguir o canal em questão (3Blue1Brown): https://www.youtube.com/watch?v=LPZh9BOjkQs&t=40s

Publicado em: 26/05/2025

Visualizações: 17

Ver todas as playlists