Hai appena finito il quarto focus group del tuo studio etnografico. In cuffia hai sei ore di registrazione, cinque partecipanti, un moderatore, terminologia che il tuo prof si aspetta accurata, e la deadline del primo capitolo metodologico fissa nel calendario. Trascrivere tutto a mano vuol dire le prossime tre settimane. Pagare un assistente costa un bando di ricerca intero. Esistono modi più sensati nel 2026, ma servono alcune accortezze specifiche per non perdere accuratezza scientifica per strada.

Verbatim o trascrizione ripulita?

Il primo passo è decidere che tipo di trascrizione ti serve, perché condiziona tutto il flusso successivo.

  • Verbatim (letterale): include tutto — esitazioni ("eh", "ehm"), false partenze, ripetizioni, pause segnate fra parentesi ("[...]"), sovrapposizioni di parola indicate da [overlap]. Standard per analisi conversazionale, etnografia, ricerca fenomenologica, oral history. È pesante da leggere ma indispensabile quando come si dice qualcosa è dato di ricerca.
  • Intelligent verbatim (ripulito): stesso contenuto semantico, ma esitazioni e ripetizioni rimosse. Più leggibile, adatto a tesi che lavorano sul contenuto delle risposte (cosa è stato detto, non come). È lo standard de facto per la maggior parte degli studi di ricerca di mercato e per le interviste in profondità.

La buona notizia: gli AI di trascrizione moderni ti danno entrambe le opzioni nello stesso file caricato, scegliendo al momento dell'export. La cattiva: alcuni framework di analisi (es. conversation analysis jeffersoniana) richiedono notazioni specifiche (allungamenti vocalici, tono ascendente) che vanno aggiunte a mano comunque.

Quanto tempo serve davvero

Per un verbatim manuale, la stima standard nel settore della trascrizione è 7–10 volte la durata dell'audio. Un focus group di 90 minuti ben condotto richiede quindi 10–15 ore di lavoro attento da un trascrittore esperto. Su un progetto di tesi con 12 focus group da 90 minuti sei a 120–180 ore di sola trascrizione, ovvero tre-quattro settimane lavorative full-time prima di iniziare il coding.

Pagare qualcuno per farlo ha un costo da bilancio di dottorato: i servizi italiani umani partono da 0,99 €/minuto (PoliLingua) e arrivano a 1,50–2 €/minuto (Rev, GoTranscript). Un focus group da 90 minuti costa quindi 90–180 €; un progetto multi-sito con 12 sessioni richiede 1.000–2.500 € solo di trascrizione.

Il flusso classico nel 2026

  1. Registrazione: con un singolo microfono al centro del tavolo o un setup multi-canale (più costoso, ma migliora la diarizzazione automatica)
  2. Trascrizione automatica: carichi il file su un servizio di trascrizione AI con riconoscimento dei parlanti
  3. Verifica e rinominazione: rivedi le porzioni che l'AI ha segnato a bassa confidenza, sostituisci "Speaker 1/2/3..." con codici partecipanti (P1, P2, P3) o pseudonimi
  4. Export in formato CAQDAS: scarichi in DOCX o VTT a seconda del software di analisi che usi
  5. Import nel software di coding: NVivo, ATLAS.ti, MAXQDA riconoscono i parlanti automaticamente se il formato è corretto
  6. Coding tematico o conversazionalecome d'abitudine

Il punto chiave: i passi 2–4 oggi richiedono da 15 minuti a un'ora in totale per un focus group da 90 minuti, contro le 10–15 ore di prima. È il salto che ha cambiato la fattibilità della ricerca qualitativa nei dottorati con borsa.

Come registrare un focus group per non perdere la diarizzazione

La diarizzazione (riconoscere chi parla) è la feature che fa o disfa l'intero workflow. È anche la parte più fragile della trascrizione automatica. Quattro regole pratiche che alzano drasticamente la qualità:

  • Un microfono al centro del tavolo, equidistante dai partecipanti. Meglio uno solo buono che tre scarsi. Un boundary mic da 50–100 € (es. Samson Meteor, Blue Snowball) cambia drasticamente la qualità rispetto al telefono.
  • Briefa i partecipanti a inizio sessione: chiedi loro di non parlare sopra altri (regola di un parlante alla volta) e di presentarsi dicendo il proprio nome la prima volta. Questo permette all'AI di legare la voce al nome.
  • Evita di posizionare il microfono vicino a uno solo: i partecipanti più distanti avranno volume inferiore e l'AI rischia di attribuire i loro interventi al partecipante più vicino al mic.
  • Per gruppi numerosi (6+) considera un microfono per persona o un setup conferenziale (es. Jabra Speak). Sopra i 6 parlanti, anche la migliore diarizzazione AI scende di accuratezza.

Formato di output per NVivo

NVivo importa transcript in DOCX o TXT su Windows, e TXT-onlysu Mac. Il formato che permette l'auto-coding degli speaker è la tabella a 3 colonne:

TimestampSpeakerTesto
00:00:12ModeratoreIniziamo con un giro di presentazioni...
00:00:34P1Per me è stato durante il lockdown...
00:01:08P2Io invece dopo l'ennesima sveglia spostata...

NVivo riconosce automaticamente la colonna "Speaker" e crea i codici per partecipante. Anche il formato lineare "Speaker: testo" funziona, ma perde il timestamp puntuale per ogni intervento.

Formato per ATLAS.ti

ATLAS.tiaccetta DOCX, RTF, TXT, VTT e SRT. Il formato più rapido per l'analisi è VTT con marker di parlante, perché ATLAS.ti riconosce automaticamente le linee in stile <v Speaker1>... e crea codici di parlante senza intervento manuale. Esempio:

WEBVTT

00:00:12.000 --> 00:00:33.000
<v Moderatore>Iniziamo con un giro di presentazioni</v>

00:00:34.000 --> 00:01:07.000
<v P1>Per me è stato durante il lockdown...</v>

Se il tuo strumento di trascrizione non esporta VTT, esporta DOCX e usa la funzione di import nativa di ATLAS.ti che riconosce il pattern "Speaker:".

Privacy, GDPR e consenso informato

La trascrizione automatica entra nel perimetro del trattamento dati qualitativi e va inquadrata correttamente nel consenso informato. Tre punti pratici:

  • Server in Unione Europea: scegli un vendor che ti garantisca per iscritto l'hosting dei file in UE. È il requisito più semplice da verificare e quello più rilevante per il tuo comitato etico.
  • Niente training su dati cliente: il vendor non deve usare i tuoi audio per addestrare i propri modelli. È uno standard di settore per i SaaS B2B seri ma va verificato nei termini di servizio.
  • DPA (Data Processing Agreement): per progetti coperti da comitato etico chiedi al vendor di firmare un DPA standard EU come responsabile del trattamento. La maggior parte dei vendor seri ne ha uno pronto.

Nel modulo di consenso informato del tuo studio, aggiungi una clausola esplicita: "Le registrazioni saranno trascritte mediante servizi di trascrizione automatica ospitati su server in Unione Europea, conformi al GDPR". È sufficiente per la maggior parte dei comitati etici italiani.

Cosa serve davvero, in sintesi

La trascrizione qualitativa nel 2026 ha smesso di essere il collo di bottiglia della ricerca empirica. La differenza tra fattibile e non fattibile, per un dottorando con borsa, non sta più nel poter pagare un assistente, ma nel sapere quale formato di export usare per non perdere il riconoscimento automatico dei parlanti nel proprio CAQDAS. Un workflow ben impostato — buona registrazione, AI con diarizzazione, export VTT o DOCX 3-column — ti porta dalla fine della sessione al primo coding nello stesso giorno.

Verlioesporta DOCX nel formato lineare "Speaker (timestamp) testo", che NVivo importa e auto-codifica sui parlanti, e VTT con marker <v Speaker> pronti per il riconoscimento automatico di ATLAS.ti. Trovi una demo sulla pagina ricerca, o puoi caricare un tuo audio reale dopo la registrazione gratuita.