Riconoscimento ottico della musica

Da Teknopedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca
Prima scansione digitale pubblicata di spartiti musicali da David Prerau nel 1971

Il riconoscimento ottico della musica, detto anche OMR (dall'inglese optical music recognition), è un campo di ricerca che studia come leggere la notazione musicale presente nei documenti attraverso il computer.[1] L'obiettivo dell'OMR è insegnare al computer a leggere e interpretare gli spartiti musicali e produrre una versione leggibile dalla macchina della partitura scritta. Una volta catturata digitalmente, la musica può essere salvata in formati di file comunemente usati, come ad esempio MIDI per la riproduzione e MusicXML per la rappresentazione.

In passato, in modo fuorviante, è stato chiamato "riconoscimento ottico dei caratteri musicali". A causa delle differenze significative, questo termine non dovrebbe più essere utilizzato.[2]

Il riconoscimento ottico della musica su spartiti stampati ha avuto inizio alla fine degli anni '60 al Massachusetts Institute of Technology, quando i primi scanner divennero disponibili per gli istituti di ricerca.[3][4][5] Nel 1984, un gruppo di ricerca giapponese dell'Università di Waseda sviluppò un robot specializzato, chiamato WABOT (WAseda roBOT), in grado di leggere lo spartito musicale di fronte a sé e accompagnare un cantante su un organo elettronico.[6][7]

La ricerca iniziale nel campo dell'OMR è stata condotta da Ichiro Fujinaga, Nicholas Carter, Kia Ng, David Bainbridge e Tim Bell. Questi ricercatori hanno sviluppato molte delle tecniche che sono ancora utilizzate oggi. La prima applicazione commerciale di OMR, MIDISCAN (oggi SmartScore), è stata lanciata nel 1991 dalla Musitek Corporation.

La disponibilità di smartphone dotati di buone fotocamere e di sufficiente potenza di calcolo ha aperto la strada allo sviluppo di app, attraverso le quali l'utente scatta una foto con lo smartphone e il dispositivo elabora direttamente l'immagine.

Relazione con altri campi

[modifica | modifica wikitesto]
Relazione tra il riconoscimento ottico della musica con altri campi di ricerca

Il riconoscimento ottico della musica è correlato ad altri ambiti di ricerca, tra cui la visione artificiale, l'analisi dei documenti e il recupero delle informazioni musicali. È rilevante per musicisti e compositori praticanti, che potrebbero utilizzare i sistemi OMR come mezzo per inserire la musica nel computer, facilitando così il processo di composizione musicale, trascrizione musicale e modifica della musica. In una biblioteca, un sistema OMR potrebbe consentire di effettuare operazioni di ricerca tra gli spartiti musicali[8], mentre per i musicologi consentirebbe di condurre studi musicologici quantitativi su larga scala.[9]

Confronto tra OMR e OCR

[modifica | modifica wikitesto]

Il riconoscimento ottico della musica è stato frequentemente confrontato con il riconoscimento ottico dei caratteri (OCR).[2][10] La principale differenza è che la notazione musicale è un sistema di scrittura caratterizzato da elementi distintivi.

La seconda distinzione principale è che, mentre un sistema OCR si limita a riconoscere lettere e parole, un sistema OMR è finalizzato a recuperare anche il significato musicale: l'utente si aspetta che la posizione verticale di una nota (concetto grafico) venga tradotta in altezza tonale (concetto musicale) applicando le regole della notazione musicale. Si noti che non esiste un equivalente diretto nel riconoscimento del testo. Per analogia, recuperare la musica da un'immagine di uno spartito può essere altrettanto difficile quanto recuperare il codice sorgente HTML da uno screenshot di un sito web.

La terza differenza riguarda l'insieme di caratteri utilizzato. Sebbene sistemi di scrittura come il cinese abbiano insiemi di caratteri straordinariamente complessi, l'insieme di primitivi per l'OMR comprende una gamma di dimensioni molto più ampia, che va da elementi minuscoli come un punto a elementi grandi che possono coprire un'intera pagina, come una parentesi. Alcuni simboli hanno un aspetto quasi illimitato, come le legature, che sono definite solo come curve più o meno morbide che possono essere interrotte in qualsiasi punto.

Infine, la notazione musicale implica relazioni spaziali bidimensionali onnipresenti, mentre il testo può essere letto come un flusso di informazioni unidimensionale, una volta stabilita la linea di base.

Approcci all'OMR

[modifica | modifica wikitesto]

Il processo di riconoscimento delle partiture musicali è tipicamente suddiviso in passaggi più piccoli gestiti da algoritmi di riconoscimento di pattern specializzati.

Sono stati proposti molti approcci concorrenti, la maggior parte dei quali condivide un'architettura a pipeline, in cui ogni passaggio esegue una certa operazione, come la rilevazione e la rimozione delle linee del pentagramma prima di passare alla fase successiva. Un problema comune di questo approccio è che errori e artefatti creati in una fase si propagano attraverso il sistema, influenzando pesantemente le prestazioni. Ad esempio, se la fase di rilevamento delle linee del pentagramma non riesce a identificare correttamente la presenza degli stessi, i passaggi successivi probabilmente ignoreranno quella regione dell'immagine, portando a informazioni mancanti nell'output.

Il riconoscimento ottico della musica è frequentemente sottovalutato a causa della natura apparentemente semplice del problema: se viene fornita una scansione perfetta di musica composta, il riconoscimento visivo può essere risolto con una sequenza di algoritmi relativamente semplici. Tuttavia, il processo diventa significativamente più difficile per scansioni di bassa qualità o musica scritta a mano, che molti sistemi non riescono a riconoscere affatto. E anche se tutti i simboli fossero stati rilevati perfettamente, è comunque complesso recuperare il significato musicale a causa delle ambiguità e delle frequenti violazioni delle regole della notazione musicale. Donald Byrd e Jakob Simonsen sostengono che l'OMR sia difficile perché la notazione musicale moderna è estremamente complessa.[11]

Donald Byrd ha anche raccolto una serie di esempi interessanti[12] così come esempi estremi[13] di notazione musicale che ne dimostrano la complessità intrinseca.

Output dei sistemi OMR

[modifica | modifica wikitesto]

Le applicazioni tipiche per i sistemi OMR includono la creazione di una versione udibile della partitura (nota come riproducibilità). Un modo comune per creare tale versione è generare un file MIDI, che può essere sintetizzato in un file audio. Tuttavia, i file MIDI non sono in grado di memorizzare informazioni di incisione (come erano disposte le note) o la scrittura enarmonica.

Se le partiture musicali vengono riconosciute con l'obiettivo della leggibilità umana (nota come ristampabilità), è necessario recuperare la codifica strutturata, che include informazioni precise sul layout e sull'incisione. Formati adatti per memorizzare queste informazioni includono MEI (Music Encoding Initiative) e MusicXML.

Oltre a queste due applicazioni, potrebbe anche essere interessante estrarre metadati dall'immagine o abilitare la ricerca. A differenza delle prime due applicazioni, un livello di analisi minore della partitura musicale potrebbe essere sufficiente per eseguire questi compiti.

Deep learning (dal 2016)

[modifica | modifica wikitesto]

Con l'avvento dell'apprendimento profondo, molti problemi di visione artificiale sono passati dalla programmazione imperativa con euristiche create a mano e ingegneria delle caratteristiche all'apprendimento automatico. Nel riconoscimento ottico della musica, le fasi di elaborazione del pentagramma,[14][15] la fase di rilevamento degli oggetti musicali,[16][17][18][19] e la fase di ricostruzione della notazione musicale[20] hanno visto tentativi di successo nel risolverli con l'apprendimento profondo.

Sono stati proposti anche approcci completamente nuovi, tra cui la risoluzione dell'OMR in modo end-to-end con modelli sequenza-sequenza, che prendono un'immagine di spartiti musicali e producono direttamente la musica riconosciuta in un formato semplificato.[21][22][23][24]

  1. ^ Alexander Pacha, Self-Learning Optical Music Recognition, TU Wien, Austria, 2019, DOI:10.13140/RG.2.2.18467.40484.
  2. ^ a b Jorge Calvo-Zaragoza, Jan jr. Hajič e Alexander Pacha, Understanding Optical Music Recognition, in ACM Computing Surveys, vol. 53, n. 4, 2020, pp. 1–35, DOI:10.1145/3397499, arXiv:1908.03608.
  3. ^ Filmato audio (EN) Optical Music Recognition Research, Optical Music Recognition for Dummies - Part 2 - Introduction and History, su YouTube, 3 ottobre 2018.
  4. ^ Dennis Howard Pruslin, Automatic Recognition of Sheet Music, Massachusetts Institute of Technology, Cambridge, Massachusetts, USA, 1966.
  5. ^ David S. Prerau, Computer pattern recognition of printed music, Fall Joint Computer Conference, 1971, pp. 153–162.
  6. ^ WABOT – WAseda roBOT, su waseda.ac.jp, Università di Waseda. URL consultato il 14 luglio 2019.
  7. ^ Wabot 2, su IEEE, IEEE. URL consultato il 14 luglio 2019.
  8. ^ Audrey Laplante e Ichiro Fujinaga, Digitizing Musical Scores: Challenges and Opportunities for Libraries, 3rd International Workshop on Digital Libraries for Musicology, 2016, pp. 45–48.
  9. ^ Jan jr. Hajič, Marta Kolárová, Alexander Pacha e Jorge Calvo-Zaragoza, How Current Optical Music Recognition Systems Are Becoming Useful for Digital Libraries, 5th International Conference on Digital Libraries for Musicology, Parigi, 2018, pp. 57–61.
  10. ^ David Bainbridge e Tim Bell, The challenge of optical music recognition, in Computers and the Humanities, vol. 35, n. 2, 2001, pp. 95–121, DOI:10.1023/A:1002485918032.
  11. ^ Donald Byrd e Jakob Grue Simonsen, Towards a Standard Testbed for Optical Music Recognition: Definitions, Metrics, and Page Images, in Journal of New Music Research, vol. 44, n. 3, 2015, pp. 169–195, DOI:10.1080/09298215.2015.1045424.
  12. ^ Donald Byrd, Gallery of Interesting Music Notation, su indiana.edu, novembre 2017. URL consultato il 14 luglio 2019.
  13. ^ Donald Byrd, Extremes of Conventional Music Notation, su indiana.edu, ottobre 2018. URL consultato il 14 luglio 2019.
  14. ^ Antonio-Javier Gallego e Jorge Calvo-Zaragoza, Staff-line removal with selectional auto-encoders, in Expert Systems with Applications, vol. 89, 2017, pp. 138–148, DOI:10.1016/j.eswa.2017.07.002.
  15. ^ Fancisco J. Castellanos, Jorge Calvo-Zaragoza, Gabriel Vigliensoni e Ichiro Fujinaga, Document Analysis of Music Score Images with Selectional Auto-Encoders (PDF), 19th International Society for Music Information Retrieval Conference, Parigi, 2018, pp. 256–263.
  16. ^ Lukas Tuggener, Ismail Elezi, Jürgen Schmidhuber e Thilo Stadelmann, Deep Watershed Detector for Music Object Recognition (PDF), 19th International Society for Music Information Retrieval Conference, Parigi, 2018, pp. 271–278.
  17. ^ Jan jr. Hajič, Matthias Dorfer, Widmer Gerhard e Pecina Pavel, Towards Full-Pipeline Handwritten OMR with Musical Symbol Detection by U-Nets (PDF), 19th International Society for Music Information Retrieval Conference, Parigi, 2018, pp. 225–232.
  18. ^ Alexander Pacha, Jan jr. Hajič e Jorge Calvo-Zaragoza, A Baseline for General Music Object Detection with Deep Learning, in Applied Sciences, vol. 8, n. 9, 2018, pp. 1488–1508, DOI:10.3390/app8091488.
  19. ^ Alexander Pacha, Kwon-Young Choi, Bertrand Coüasnon, Yann Ricquebourg, Richard Zanibbi e Horst Eidenberger, Handwritten Music Object Detection: Open Issues and Baseline Results (PDF), 13th International Workshop on Document Analysis Systems, 2018, pp. 163–168, DOI:10.1109/DAS.2018.51.
  20. ^ Alexander Pacha, Jorge Calvo-Zaragoza e Jan jr. Hajič, Learning Notation Graph Construction for Full-Pipeline Optical Music Recognition (PDF), 20th International Society for Music Information Retrieval Conference, 2019.
  21. ^ Eelco van der Wel e Karen Ullrich, Optical Music Recognition with Convolutional Sequence-to-Sequence Models (PDF), 18th International Society for Music Information Retrieval Conference, Suzhou, 2017.
  22. ^ Jorge Calvo-Zaragoza e David Rizo, End-to-End Neural Optical Music Recognition of Monophonic Scores, in Applied Sciences, vol. 8, n. 4, 2018, pp. 606, DOI:10.3390/app8040606.
  23. ^ Arnau Baró, Pau Riba, Jorge Calvo-Zaragoza e Alicia Fornés, Optical Music Recognition by Recurrent Neural Networks, 14th International Conference on Document Analysis and Recognition, 2017, pp. 25–26, DOI:10.1109/ICDAR.2017.260.
  24. ^ Arnau Baró, Pau Riba, Jorge Calvo-Zaragoza e Alicia Fornés, From Optical Music Recognition to Handwritten Music Recognition: A baseline, in Pattern Recognition Letters, vol. 123, 2019, pp. 1–8, DOI:10.1016/j.patrec.2019.02.029.

Altri progetti

[modifica | modifica wikitesto]
  Portale Musica: accedi alle voci di Teknopedia che trattano di musica