semplice e naturale:
usa la tua voce
Una delle fasi più delicate e, senza gli strumenti adatti, più dispendiose nella generazione/test delle grammatiche è la fase di tuning di una grammatica prima di essere messa in produzione o una volta messa in produzione.
Consideriamo i due casi precedenti:
- grammatica in fase di rilascio: come spiegato nella sezione di test ogni qualvolta testiamo la nostra grammatica con la voce possiamo salvare i nostri file audio (file di dump) e utilizzarli in un secondo tempo.
- grammatica in produzione: anche in questo caso saremo in grado di catturare il file contenente lo speech dell'utente (file di dump), salvarlo e utilizzarlo nuovamente.
Senza la possibilità di salvare ed esaminare nel dettaglio i file di dump, non è possibile determinare esattametne l'orgine di un determinato errore di ricoscimento.
i dati a nostra disposizione, ad esempio in un file di log, sono:
- la utterance: quello che ha detto l'utente;
- il riconosciuto: il valore che il sistema restituisce per quella determinata utterance.
Questi due dati non sempre sono sufficienti per determinare la natura di un errore di riconoscimento, ad esempio può capitare che:
- un utente parli troppo presto, quindi la sua utterance sia tagliata, ma la grammatica formalmente giusta;
- un utente pronunci una frase che non abbiamo incluso nella grammatica o la cui sequenza di parole non era stata valutata.
L'importanza dell'analisi dei file di dump risulta evidente quando, modificando una grammatica, possiamo ritestarla con il pool di file che abbiamo salvato nei due casi precedenti e valutare immediatamente il risultato delle modifiche.
Questa operazione normalmente richiederebbe diverse ore, con Grammar Studio i tempi di analisi si riducono a pochi minuti (meno di 5 minuti per centinaia di files).
Una delle caratteristiche derivanti dall'integrazione con MultiModalBerry è il log avanzato di tutti gli eventi di riconoscimento.
Questo log permette di stampare su un file XML tutti i dettagli del singolo evento di riconoscimento vocale: sia che esso avvenga tramite il profiler via voce, sia che vengano utilizzati dei pre-registrati all'interno del profiler da file.
I log registrano numerosi dettagli tra cui:
- informazioni sul riconoscimento: utterances, confidence, n-best-list, risultato dell'evento;
- informazioni sul tipo di riconoscimento: algoritmo usato (solo multimodale);
- etichette per l'archiviazione: tempo, contesto, file di dump;
Questo insieme di informazioni viene poi raggruppato in un Report, attraverso la funzione Berry Log-Report, che mostra gli eventi raggruppati per contesto, con informazioni ad alto livello sul ogni contesto e in dettaglio su ogni singolo evento di riconoscimento.
Amche in questo, come visto per i file di dump, è possibile: