Thematic Clusters
Sessions grouped by topic similarity — click a cluster to filter, or search by keyword
How is India shaping the global AI conversation?
Analyzing 461 session descriptions from the India AI Impact Summit 2026 — clustered by topic using TF-IDF vectorization and KMeans to reveal the summit's thematic landscape.
Sessions grouped by topic similarity — click a cluster to filter, or search by keyword
461 YouTube session descriptions were collected from the India AI Impact Summit 2026 (Feb 16–21, 2026). Video titles and descriptions were combined to create richer text signals for each session. 34 videos had no description and relied on their titles alone.
Text was lowercased and stripped of boilerplate terms (“AI Impact Summit”, “subscribe”, “YouTube”, etc.). TF-IDF — Term Frequency–Inverse Document Frequency — then converted each session into a 500-dimensional numeric vector, giving higher weight to words that are distinctive to specific talks rather than common across the entire dataset.
KMeans groups sessions by minimising the distance from each point to its nearest cluster centre. The algorithm alternates between two steps: (1) assign every session to its closest centroid, and (2) recompute each centroid as the mean of its assigned sessions — repeating until assignments no longer change.
We tested k = 3 through 11 and selected k = 7 based on the silhouette score, which measures how similar each point is to its own cluster versus other clusters.
The 500-dimensional TF-IDF space was projected to 2D using Principal Component Analysis (PCA). The two principal components capture the main axes of variance and serve as x/y coordinates in the scatter plot. Point size encodes view count.
461 descrições de sessões do YouTube foram coletadas do India AI Impact Summit 2026 (16–21 de fevereiro de 2026). Títulos e descrições foram combinados para criar sinais de texto mais ricos para cada sessão. 34 vídeos não tinham descrição e dependeram apenas dos títulos.
O texto foi convertido para minúsculas e limpo de termos genéricos (“AI Impact Summit”, “inscreva-se”, “YouTube”, etc.). O TF-IDF — Frequência de Termo–Frequência Inversa de Documento — converteu cada sessão em um vetor numérico de 500 dimensões, dando maior peso a palavras que são distintivas de palestras específicas em vez de comuns em todo o conjunto de dados.
O KMeans agrupa as sessões minimizando a distância de cada ponto ao centro do cluster mais próximo. O algoritmo alterna entre duas etapas: (1) atribuir cada sessão ao centroide mais próximo, e (2) recalcular cada centroide como a média das sessões atribuídas — repetindo até que as atribuições não mudem mais.
Testamos k = 3 até 11 e selecionamos k = 7 com base no índice de silhueta, que mede quão similar cada ponto é ao seu próprio cluster em comparação com os demais.
O espaço TF-IDF de 500 dimensões foi projetado para 2D usando Análise de Componentes Principais (PCA). Os dois primeiros componentes capturam os principais eixos de variância e servem como coordenadas x/y no gráfico de dispersão. O tamanho dos pontos representa o número de visualizações.