Palestra · LABHD-UFBA

Antropologia Digital, RAG e Agentes na Pesquisa

Agência, epistemologia e human-in-the-loop — uma trajetória da pesquisa social digital ao paradigma dos agentes

L4BHD/UFBA
QR code para a apresentação online slides online
Trajetória · marco zero

2012 — A análise qualitativa entra no computador

2012Atlas.ti

Início com Atlas.ti: codificação e análise qualitativa assistida por software (CAQDAS). O dado social continuava o mesmo — entrevistas, documentos, notas de campo — mas a organização e a recuperação passaram a ser mediadas por software.

Primeira pergunta de fundo: o que significa digitalizar a pesquisa social?

Digitalizar não é só transpor papel para a tela: é introduzir uma camada técnica de mediação entre o pesquisador e seu material — o embrião de tudo que vem depois.
Trajetória · o campo se desloca

2014–2018 — A Digitalização do Eu na Vida Cotidiana

2014→ 2018

As tecnologias digitais passam a ocupar todos os âmbitos da vida social e se tornam um fato social total.

o digital está se tornando uma parte constitutiva daquilo que nos torna humanos.” (Horst & Miller, 2012, p. 4)
HORST, H. A.; MILLER, D. Digital Anthropology. London: Bloomsbury Academic, 2012.
Trajetória · virada computacional

2018 — Da ferramenta fechada ao código aberto

2018R · código

Aprendizado de R e da programação como método. A virada decisiva: deixar de apenas usar ferramentas para criar as próprias ferramentas — do software caixa-preta ao código aberto, auditável e reprodutível.

Uma escada de aprendizado: utilidade → aprendizado → aprimoramento → diversificação → artesanato digital.

Não há neutralidade metodológica nas técnicas (Bourdieu, Passeron & Chamboredon, 2004) — programar é posição epistemológica: erros de código viram erros metodológicos.
Trajetória · infraestrutura de linguagem

2023 — Os LLMs como infraestrutura de pesquisa

2023LLMs

Modelos de linguagem deixam de ser objeto de estudo para se tornarem infraestrutura do trabalho de pesquisa.

Um fluxo contínuo se consolida: texto → código → análise → escrita assistida. O LLM atravessa todas as etapas, da exploração do corpus à redação.

A questão deixa de ser “como analisar dados digitais?” e passa a ser “como pesquisar quando a própria linguagem se tornou computável?”
Trajetória · onde estamos

2024–25 — De LLMs a Agentes

Agentes não são novos — mas a fusão LLM + agente redefine a agência na pesquisa: o pesquisador delega, supervisiona e co-cria.

2012
Atlas.ti · CAQDAS
2014–18
Vida Social Digitalizada
2018
R · código aberto
2023
LLMs como infra
2024–25
Agentes na pesquisa
01

IA generativa, LLMs e RAG

Os conceitos de base — da definição de IA à geração ancorada em evidência, até as ferramentas de NLP do LABHD-UFBA.
Fundamentos

O que é Inteligência Artificial?

Inteligência Artificial
Machine Learning
Deep Learning · Redes Neurais
LLMs
IA
Máquinas “inteligentes”, em sentido amplo.
Machine Learning
Reconhecimento de padrões aprendidos a partir de dados.
Deep Learning
Padrões em dados não-estruturados: imagem, texto, áudio.
LLMs
Aprendem a “compreender” e gerar linguagem natural.
Fundamentos

O que é IA Generativa?

Modelos que produzem conteúdo novo a partir de padrões estatísticos aprendidos de grandes corpora.

Um modelo generativo não “entende” no sentido humano: ele estima a distribuição de probabilidade do que vem a seguir e amostra dela uma saída plausível.
Implicação metodológica: a saída é verossímil, não necessariamente verdadeira. Plausibilidade ≠ veracidade — daí a necessidade de ancoragem em evidência (RAG) e de supervisão humana.
Fundamentos

O que são Modelos de Linguagem (LLMs)?

O treino envolve a tokenização das palavras, transformando-as em embeddings — representações numéricas que capturam significado e contexto.

O219195
arquiteto26887
não213002
reiniciou267358
o219195
servidor281596
porque252197
ele104265
estava119840
com76912
preguiça254276
No espaço de embeddings, sentidos próximos ficam próximos (cão · gato · cavalo) — mas a previsão é estatística: daí alucinação e viés como propriedades do mecanismo, não bugs.
Retrieval-Augmented Generation

O que é RAG, em três etapas

01 · Recuperação
Buscar evidência
A pergunta recupera, de uma base de conhecimento, os documentos semanticamente relevantes.
02 · Aumento
Injetar no prompt
Os trechos recuperados são inseridos no contexto enviado ao LLM, junto da pergunta.
03 · Geração
Responder ancorado
O LLM gera a resposta condicionada à evidência fornecida, com trechos citáveis.
RAG ≠ busca: é geração condicionada a uma base de conhecimento. Ao vincular cada afirmação a um trecho recuperável, reduz a alucinação e torna o LLM um instrumento auditável.
Aplicação · ferramentas em ação

Do texto à estrutura: o que o LABHD usa

NER · Reconhecimento de entidades
Identifica e classifica automaticamente pessoas, organizações, locais, datas e eventos em grandes volumes textuais.
Topic Modelling
Revela temas latentes agrupando palavras associadas (ex.: Manifesto Comunista → luta de classes · propriedade · indústria).
Knowledge Graph
Rede semântica de entidades e relações (SUPPORTS / OPPOSES) — usada p/ mapear polarização política. LLMGraphTransformer + gpt-4o-mini.
RAG
Geração ancorada em base documental — resposta rastreável e auditável sobre corpora grandes demais p/ leitura exaustiva.
Eixos de classificação: tarefa (extração · modelagem · geração) · nível (codificação · exploração · interpretação) · pipeline (coleta · codificação · análise).
02

Agentes na pesquisa

O que muda quando o LLM ganha ferramentas, memória e autonomia — e como a agência se redistribui.
Fundamentos

O que são Agentes?

Um LLM-agente acopla um modelo de linguagem a módulos de controle, percepção e ação — planeja, age sobre o mundo e revê o resultado em ciclo.

Controle
Storage
MemóriaBase de conhecimento
Decisão
PlanejamentoRaciocínio
LLM-Agente
raciocínio + ferramentas + memória
⇅ Humano
delega · supervisiona · valida
Percepção & Ação
Perception
ColetaProcessamento
Action
FerramentasFeedback
Agentes precedem os LLMs (sistemas especialistas, bots, multiagente); a fusão LLM+agente é que redefine a agência. Arquitetura: Synthetic Agents — arXiv 2503.05659.
Aplicação

A pesquisa do LABHD, em escala

Objeto: o ecossistema multiplataforma de desinformação e radicalização no Brasil (Telegram → YouTube, Instagram, WhatsApp…). Três fases, 2021–2027, com Letícia Cesarino (UFSC) · InternetLab · CNPq · PECS/ISC.

+70M
mensagens coletadas (2015–2025)
5M
imagens e vídeos
3M
links do YouTube
30 TB
de dados
É aqui que NER, topic modelling, knowledge graphs, RAG e agentes coletam, classificam, sumarizam e analisam — sob coordenação de times qualitativo e quantitativo (grounded theory, populismo · EDA, NLP, IA).
Tese central

Agência distribuída

O pesquisador não é substituído: a agência se redistribui entre humano e máquina.

O agente não “decide” sozinho — opera dentro de guardrails definidos pelo pesquisador: escopo, critérios, pontos de validação. A autoria e a responsabilidade permanecem humanas.
Deslocamento do fazer para o orientar e validar: a competência metodológica migra para o desenho dos limites em que a máquina pode agir.
03

Considerações epistemológicas

Crítica dos dados e das ferramentas, o lugar do humano no ciclo e os limites de matematizar o sentido.
Ciência social computacional crítica

Por que o humano importa: três frentes críticas

Crítica dos dados
“Raw data is an oxymoron.” Todo dado tem condições de existência e uma história — exige o mesmo rigor de uma fonte de arquivo. Gitelman, 2013 · Brasil & Nascimento, 2020
Crítica das ferramentas
Erros de código viram erros metodológicos. “Assistentes digitais já contêm teoria e julgamento.” Rieder & Röhle, 2012
Teoria + empiria
Teorizar como prática: abstração, abdução e indução em pequenos projetos empíricos. Ignatow, 2020
RAG e agentes não são neutros — incorporam teoria e decisões. Manter o humano no loop é o que preserva a crítica dos dados e das ferramentas.
Definições e trade-offs

Human in · on · out of the loop

A distinção clássica gradua quanto de humano permanece no ciclo de decidir e agir.

In the loop
No ciclo
A máquina só decide e age com um comando humano. Nada avança sem confirmação.
↑ Transparência total · ↓ não escala (gargalo humano)
On the loop
Sobre o ciclo
A máquina decide e age sob a supervisão de um operador que pode anular suas ações.
Equilíbrio: escala com controle seletivo
Out of the loop
Fora do ciclo — o problema
A máquina decide e age sem qualquer entrada ou interação humana.
↑ Escala máxima · ↓ risco epistêmico (alucinação, viés, opacidade)
Não há posição “correta” em abstrato — a escolha do loop é uma decisão metodológica, função do risco da tarefa. Mas, nas ciências sociais, o out-of-the-loop é um problema epistemológico: delegar a interpretação é abrir mão do que define a disciplina.
Taxonomia adaptada de Human Rights Watch, Losing Humanity (2012) — da decisão letal à decisão interpretativa.
O limite epistemológico

É possível matematizar o sentido?

Embeddings transformam significado em vetores. Mas o que é “significado” num modelo estatístico?

A promessa
Operacionalizar sentido em escala — comparar, agrupar e recuperar milhões de textos.
O risco
Redução da complexidade discursiva: o que não cabe no vetor desaparece da análise.
A resposta
Leitura crítica e contextualizada das descobertas automatizadas — o humano no loop.
“A revolução das modalidades de produção e de transmissão dos textos é também uma mutação epistemológica fundamental.” — Chartier, 2002, p. 108.
Balanço

Velhos Novos desafios

Teóricos
Que conceitos sociológicos sobrevivem quando o objeto e o método são reconstituídos digitalmente?
Metodológicos
Validação, reprodutibilidade e crítica das ferramentas — “erros de código viram erros metodológicos”.
Financeiros
Custo de cômputo, armazenamento (30 TB) e APIs — quem banca a infraestrutura da pesquisa?
Epistemológicos
O sentido matematizável e o lugar do humano: onde a interpretação é indelegável.
Síntese

Reconfiguração, não automação

A pesquisa digital não é a automação da pesquisa — é a reconfiguração da agência entre humano e máquina.

O desafio não é escolher se usar agentes, mas manter o humano no loop certo, no momento certo — onde o julgamento, a responsabilidade e a interpretação são indelegáveis.
Em 2023: “never send a human to do a robot's job.” Em 2025, a pergunta se inverte — não o que automatizar, mas onde o humano é indelegável.

Obrigado!

Leonardo F. Nascimento
Prof. UFBA · Coord. LABHDUFBA · Analista de dados CADE · Bolsista IPEA
leofn3@gmail.com · leofn.com · github.com/leofn
L4BHD/UFBA