Antropologia Digital, RAG e Agentes na Pesquisa

Trajetória · marco zero

2012 — A análise qualitativa entra no computador

2012Atlas.ti

Início com Atlas.ti: codificação e análise qualitativa assistida por software (CAQDAS). O dado social continuava o mesmo — entrevistas, documentos, notas de campo — mas a organização e a recuperação passaram a ser mediadas por software.

Primeira pergunta de fundo: o que significa digitalizar a pesquisa social?

Digitalizar não é só transpor papel para a tela: é introduzir uma camada técnica de mediação entre o pesquisador e seu material — o embrião de tudo que vem depois.

Trajetória · o campo se desloca

2014–2018 — A Digitalização do Eu na Vida Cotidiana

2014→ 2018

As tecnologias digitais passam a ocupar todos os âmbitos da vida social e se tornam um fato social total.

“o digital está se tornando uma parte constitutiva daquilo que nos torna humanos.” (Horst & Miller, 2012, p. 4)

HORST, H. A.; MILLER, D. Digital Anthropology. London: Bloomsbury Academic, 2012.

Trajetória · virada computacional

2018 — Da ferramenta fechada ao código aberto

2018R · código

Aprendizado de R e da programação como método. A virada decisiva: deixar de apenas usar ferramentas para criar as próprias ferramentas — do software caixa-preta ao código aberto, auditável e reprodutível.

Uma escada de aprendizado: utilidade → aprendizado → aprimoramento → diversificação → artesanato digital.

Não há neutralidade metodológica nas técnicas (Bourdieu, Passeron & Chamboredon, 2004) — programar é posição epistemológica: erros de código viram erros metodológicos.

Trajetória · infraestrutura de linguagem

2023 — Os LLMs como infraestrutura de pesquisa

2023LLMs

Modelos de linguagem deixam de ser objeto de estudo para se tornarem infraestrutura do trabalho de pesquisa.

Um fluxo contínuo se consolida: texto → código → análise → escrita assistida. O LLM atravessa todas as etapas, da exploração do corpus à redação.

A questão deixa de ser “como analisar dados digitais?” e passa a ser “como pesquisar quando a própria linguagem se tornou computável?”

Trajetória · onde estamos

2024–25 — De LLMs a Agentes

Agentes não são novos — mas a fusão LLM + agente redefine a agência na pesquisa: o pesquisador delega, supervisiona e co-cria.

2012

Atlas.ti · CAQDAS

2014–18

Vida Social Digitalizada

2018

R · código aberto

2023

LLMs como infra

2024–25

Agentes na pesquisa

Fundamentos

O que é Inteligência Artificial?

Inteligência Artificial

Machine Learning

Deep Learning · Redes Neurais

LLMs

IA

Máquinas “inteligentes”, em sentido amplo.

Machine Learning

Reconhecimento de padrões aprendidos a partir de dados.

Deep Learning

Padrões em dados não-estruturados: imagem, texto, áudio.

LLMs

Aprendem a “compreender” e gerar linguagem natural.

Fundamentos

O que é IA Generativa?

Modelos que produzem conteúdo novo a partir de padrões estatísticos aprendidos de grandes corpora.

Um modelo generativo não “entende” no sentido humano: ele estima a distribuição de probabilidade do que vem a seguir e amostra dela uma saída plausível.

Implicação metodológica: a saída é verossímil, não necessariamente verdadeira. Plausibilidade ≠ veracidade — daí a necessidade de ancoragem em evidência (RAG) e de supervisão humana.

Fundamentos

O que são Modelos de Linguagem (LLMs)?

O treino envolve a tokenização das palavras, transformando-as em embeddings — representações numéricas que capturam significado e contexto.

O219195

arquiteto26887

não213002

reiniciou267358

o219195

servidor281596

porque252197

ele104265

estava119840

com76912

preguiça254276

No espaço de embeddings, sentidos próximos ficam próximos (cão · gato · cavalo) — mas a previsão é estatística: daí alucinação e viés como propriedades do mecanismo, não bugs.

Retrieval-Augmented Generation

O que é RAG, em três etapas

01 · Recuperação

Buscar evidência

A pergunta recupera, de uma base de conhecimento, os documentos semanticamente relevantes.

02 · Aumento

Injetar no prompt

Os trechos recuperados são inseridos no contexto enviado ao LLM, junto da pergunta.

03 · Geração

Responder ancorado

O LLM gera a resposta condicionada à evidência fornecida, com trechos citáveis.

RAG ≠ busca: é geração condicionada a uma base de conhecimento. Ao vincular cada afirmação a um trecho recuperável, reduz a alucinação e torna o LLM um instrumento auditável.

Aplicação · ferramentas em ação

Do texto à estrutura: o que o LABHD usa

NER · Reconhecimento de entidades

Identifica e classifica automaticamente pessoas, organizações, locais, datas e eventos em grandes volumes textuais.

Topic Modelling

Revela temas latentes agrupando palavras associadas (ex.: Manifesto Comunista → luta de classes · propriedade · indústria).

Knowledge Graph

Rede semântica de entidades e relações (SUPPORTS / OPPOSES) — usada p/ mapear polarização política. LLMGraphTransformer + gpt-4o-mini.

RAG

Geração ancorada em base documental — resposta rastreável e auditável sobre corpora grandes demais p/ leitura exaustiva.

Eixos de classificação: tarefa (extração · modelagem · geração) · nível (codificação · exploração · interpretação) · pipeline (coleta · codificação · análise).

Fundamentos

O que são Agentes?

Um LLM-agente acopla um modelo de linguagem a módulos de controle, percepção e ação — planeja, age sobre o mundo e revê o resultado em ciclo.

Controle

Storage

MemóriaBase de conhecimento

Decisão

PlanejamentoRaciocínio

LLM-Agente

raciocínio + ferramentas + memória

⇅ Humano

delega · supervisiona · valida

Percepção & Ação

Perception

ColetaProcessamento

Action

FerramentasFeedback

Agentes precedem os LLMs (sistemas especialistas, bots, multiagente); a fusão LLM+agente é que redefine a agência. Arquitetura: Synthetic Agents — arXiv 2503.05659.

Aplicação

A pesquisa do LABHD, em escala

Objeto: o ecossistema multiplataforma de desinformação e radicalização no Brasil (Telegram → YouTube, Instagram, WhatsApp…). Três fases, 2021–2027, com Letícia Cesarino (UFSC) · InternetLab · CNPq · PECS/ISC.

+70M

mensagens coletadas (2015–2025)

5M

imagens e vídeos

3M

links do YouTube

30 TB

de dados

É aqui que NER, topic modelling, knowledge graphs, RAG e agentes coletam, classificam, sumarizam e analisam — sob coordenação de times qualitativo e quantitativo (grounded theory, populismo · EDA, NLP, IA).

Tese central

Agência distribuída

O pesquisador não é substituído: a agência se redistribui entre humano e máquina.

O agente não “decide” sozinho — opera dentro de guardrails definidos pelo pesquisador: escopo, critérios, pontos de validação. A autoria e a responsabilidade permanecem humanas.

Deslocamento do fazer para o orientar e validar: a competência metodológica migra para o desenho dos limites em que a máquina pode agir.

Ciência social computacional crítica

Por que o humano importa: três frentes críticas

Crítica dos dados

“Raw data is an oxymoron.” Todo dado tem condições de existência e uma história — exige o mesmo rigor de uma fonte de arquivo. Gitelman, 2013 · Brasil & Nascimento, 2020

Crítica das ferramentas

Erros de código viram erros metodológicos. “Assistentes digitais já contêm teoria e julgamento.” Rieder & Röhle, 2012

Teoria + empiria

Teorizar como prática: abstração, abdução e indução em pequenos projetos empíricos. Ignatow, 2020

RAG e agentes não são neutros — incorporam teoria e decisões. Manter o humano no loop é o que preserva a crítica dos dados e das ferramentas.

Definições e trade-offs

Human in · on · out of the loop

A distinção clássica gradua quanto de humano permanece no ciclo de decidir e agir.

In the loop

No ciclo

A máquina só decide e age com um comando humano. Nada avança sem confirmação.

↑ Transparência total · ↓ não escala (gargalo humano)

On the loop

Sobre o ciclo

A máquina decide e age sob a supervisão de um operador que pode anular suas ações.

Equilíbrio: escala com controle seletivo

Out of the loop

Fora do ciclo — o problema

A máquina decide e age sem qualquer entrada ou interação humana.

↑ Escala máxima · ↓ risco epistêmico (alucinação, viés, opacidade)

Não há posição “correta” em abstrato — a escolha do loop é uma decisão metodológica, função do risco da tarefa. Mas, nas ciências sociais, o out-of-the-loop é um problema epistemológico: delegar a interpretação é abrir mão do que define a disciplina.

Taxonomia adaptada de Human Rights Watch, Losing Humanity (2012) — da decisão letal à decisão interpretativa.

O limite epistemológico

É possível matematizar o sentido?

Embeddings transformam significado em vetores. Mas o que é “significado” num modelo estatístico?

A promessa

Operacionalizar sentido em escala — comparar, agrupar e recuperar milhões de textos.

O risco

Redução da complexidade discursiva: o que não cabe no vetor desaparece da análise.

A resposta

Leitura crítica e contextualizada das descobertas automatizadas — o humano no loop.

“A revolução das modalidades de produção e de transmissão dos textos é também uma mutação epistemológica fundamental.” — Chartier, 2002, p. 108.

Balanço

Velhos Novos desafios

Teóricos

Que conceitos sociológicos sobrevivem quando o objeto e o método são reconstituídos digitalmente?

Metodológicos

Validação, reprodutibilidade e crítica das ferramentas — “erros de código viram erros metodológicos”.

Financeiros

Custo de cômputo, armazenamento (30 TB) e APIs — quem banca a infraestrutura da pesquisa?

Epistemológicos

O sentido matematizável e o lugar do humano: onde a interpretação é indelegável.

Síntese

Reconfiguração, não automação

“

A pesquisa digital não é a automação da pesquisa — é a reconfiguração da agência entre humano e máquina.

O desafio não é escolher se usar agentes, mas manter o humano no loop certo, no momento certo — onde o julgamento, a responsabilidade e a interpretação são indelegáveis.

Em 2023: “never send a human to do a robot's job.” Em 2025, a pergunta se inverte — não o que automatizar, mas onde o humano é indelegável.

Antropologia Digital, RAG e Agentes na Pesquisa

2012 — A análise qualitativa entra no computador

2014–2018 — A Digitalização do Eu na Vida Cotidiana

2018 — Da ferramenta fechada ao código aberto

2023 — Os LLMs como infraestrutura de pesquisa

2024–25 — De LLMs a Agentes

IA generativa, LLMs e RAG

O que é Inteligência Artificial?

O que é IA Generativa?

O que são Modelos de Linguagem (LLMs)?

O que é RAG, em três etapas

Do texto à estrutura: o que o LABHD usa

Agentes na pesquisa

O que são Agentes?

A pesquisa do LABHD, em escala

Agência distribuída

Considerações epistemológicas

Por que o humano importa: três frentes críticas

Human in · on · out of the loop

É possível matematizar o sentido?

Velhos Novos desafios

Reconfiguração, não automação

Obrigado!