Classificação de Textos com Processamento de Linguagem Natural (PLN)

1. Introdução ao Processamento de Linguagem Natural

O Processamento de Linguagem Natural (PLN) é uma área da inteligência artificial que permite que os computadores compreendam, interpretem e gerem linguagem humana. Essa tecnologia é fundamental para uma variedade de aplicações, como análise de sentimentos, tradução automática, e classificação de textos. O foco deste artigo é explorar como o PLN pode ser aplicado na classificação de textos e no agrupamento em clusters.

Ao final, na seção 6 desta página, compartilho o link para um exemplo completo no Google Colab.

2. O que é Classificação de Textos?

A classificação de textos envolve a categorização automática de documentos, atribuindo a eles rótulos com base em seu conteúdo. Isso pode ser feito de forma supervisionada (com categorias predefinidas) ou não supervisionada (agrupando textos semelhantes).

A classificação supervisionada utiliza algoritmos de aprendizado de máquina que são treinados com dados rotulados, enquanto o agrupamento em clusters (classificação não supervisionada) organiza textos com base em similaridades, sem rótulos pré-definidos.

3. Algoritmos para Agrupamento de Clusters

Para a classificação não supervisionada de textos, uma das técnicas mais comuns é o agrupamento em clusters, onde documentos semelhantes são organizados em grupos. Alguns dos principais algoritmos usados são:

K-Means: Divide os textos em um número pré-definido de clusters, calculando a similaridade entre os textos.
DBSCAN: Agrupa textos com base em densidades, formando clusters onde há maior concentração de textos semelhantes.
Agglomerative Clustering: Um algoritmo hierárquico que agrupa textos de maneira incremental, começando com cada texto em um cluster individual.

4. Pré-processamento de Textos

Antes de aplicar algoritmos de classificação ou agrupamento, é necessário realizar o pré-processamento dos textos, que envolve etapas como:

Tokenização: Dividir o texto em palavras outokens.
Remoção de Stopwords: Eliminar palavras muito comuns que não agregam valor ao significado (como "de", "e", "a").
Stemming ou Lemmatização: Reduzir palavras às suas raízes ou formas base.
Vetorização: Transformar o texto em vetores numéricos, como o TF-IDF, que mede a importância de uma palavra em um documento em relação a um corpus de textos.

Exemplo de Vetorização TF-IDF em Python:from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ["Eu amo programação", "Programação é incrível", 
          "Eu aprendo programação todo dia"]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(X.toarray());

5. Exemplo Prático: Agrupando Textos com K-Means

Vamos aplicar o algoritmo K-Means para agrupar textos semelhantes em clusters. Suponha que temos o seguinte corpus de textos:

corpus = [
    "Eu adoro jogar futebol",
    "O futebol é um esporte muito popular",
    "Programar em Python é divertido",
    "Eu amo aprender novas linguagens de programação"
]

# Aplicando K-Means para agrupar os textos
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)

# Usando K-Means com 2 clusters
kmeans = KMeans(n_clusters=2, random_state=0)
kmeans.fit(X)

# Mostrando os clusters
print(kmeans.labels_)

Neste exemplo, o K-Means agrupa os textos em 2 clusters: um relacionado a futebol e outro a programação. Isso é útil para organizar automaticamente grandes quantidades de textos.

6. Roteiro para classificação de textos - Bert e KMeans

Veja, no link do Google Colab a seguir, um exemplo prático mais completo de classificação não supervisionada (automática) de textos Roteiro para classificação de textos - Bert e KMeans.ipynb