AI Impact Summit 2026 — Cluster Analysis

01

Coleta de dados

461 descrições de sessões do YouTube foram coletadas do India AI Impact Summit 2026 (16–21 de fevereiro de 2026). Títulos e descrições foram combinados para criar sinais de texto mais ricos para cada sessão. 34 vídeos não tinham descrição e dependeram apenas dos títulos.

02

Vetorização TF-IDF

O texto foi convertido para minúsculas e limpo de termos genéricos (“AI Impact Summit”, “inscreva-se”, “YouTube”, etc.). O TF-IDF — Frequência de Termo–Frequência Inversa de Documento — converteu cada sessão em um vetor numérico de 500 dimensões, dando maior peso a palavras que são distintivas de palestras específicas em vez de comuns em todo o conjunto de dados.

03

Agrupamento KMeans

O KMeans agrupa as sessões minimizando a distância de cada ponto ao centro do cluster mais próximo. O algoritmo alterna entre duas etapas: (1) atribuir cada sessão ao centroide mais próximo, e (2) recalcular cada centroide como a média das sessões atribuídas — repetindo até que as atribuições não mudem mais.

Testamos k = 3 até 11 e selecionamos k = 7 com base no índice de silhueta, que mede quão similar cada ponto é ao seu próprio cluster em comparação com os demais.

⚠ Os índices de silhueta são baixos (~0,03) — isso é esperado. As sessões do summit abrangem deliberadamente temas amplos e sobrepostos (governança, infraestrutura, política, liderança), tornando a separação limpa inerentemente difícil.

04

Visualização com PCA

O espaço TF-IDF de 500 dimensões foi projetado para 2D usando Análise de Componentes Principais (PCA). Os dois primeiros componentes capturam os principais eixos de variância e servem como coordenadas x/y no gráfico de dispersão. O tamanho dos pontos representa o número de visualizações.

AI Impact Summit videos

Thematic Clusters

AI Impact Summit videos

Thematic Clusters

Data collection

TF-IDF vectorization

KMeans clustering

PCA visualization

Coleta de dados

Vetorização TF-IDF

Agrupamento KMeans

Visualização com PCA