Set di dati di scrittura a mano

I 15 migliori set di dati di scrittura a mano open source per addestrare i tuoi modelli ML

Il mondo degli affari si sta trasformando a un ritmo fenomenale, ma questa trasformazione digitale non è così ampia come vorremmo che fosse. Le persone gestiscono ancora documenti fisici nelle loro operazioni quotidiane, dalle grandi aziende alle piccole imprese. Sebbene la frequenza di utilizzo si sia notevolmente ridotta, non è stata completamente eliminata. Invece del lungo processo di scansione dei documenti per uso digitale, utilizzando le più recenti OCR è efficiente in termini di tempo ed efficace.

L'aumento dell'utilizzo del riconoscimento ottico dei caratteri può essere attribuito principalmente all'aumento della produzione di sistemi di riconoscimento automatico. Di conseguenza, il valore di mercato globale della tecnologia OCR è stato ancorato $8.93 miliardi nel 2021, si prevede che cresca a un CAGR del 15.4% tra il 2022 e il 2030.

Ma cos'è esattamente la tecnologia OCR? E perché è un punto di svolta per le aziende che sviluppano modelli di intelligenza artificiale efficienti? Scopriamolo.

Che cos'è l'OCR?

In alternativa denominato riconoscimento del testo, OCR o riconoscimento ottico dei caratteri è un programma che estrae dati stampati o scritti da documenti scansionati, PDF di sole immagini e note scritte a mano in un formato leggibile dalla macchina. Il software estrae ogni lettera dall'immagine e le combina in parole e frasi, facilitando così l'accesso e la modifica digitale dei documenti.

Cosa sono i set di dati open source?

Ci sono diversi posti in cui la tecnologia OCR ha un grande potenziale da sfruttare. Alcuni luoghi includono l'aeroporto, la pubblicazione di eBook, le pubblicità, le banche e i sistemi della catena di approvvigionamento. Tuttavia, affinché le applicazioni servano al loro scopo, devono essere formate su progetti specifici Set di dati di riconoscimento ottico dei caratteri.

L'efficienza dell'applicazione dipende in gran parte dalla qualità del set di dati e dalla metodologia di formazione coinvolta. Tuttavia, trovare qualità digitale e set di dati di scrittura a mano è difficile per l'applicazione. Pertanto, molte aziende utilizzano set di dati open source o gratuiti invece di quelli proprietari.

Vantaggi e sfide dei set di dati open source

Le aziende devono mettere a confronto vantaggi e sfide per capire se devono optare per dati free-to-use per le loro applicazioni ML.

Benefici

  • I dati sono facilmente accessibili. Grazie alla disponibilità dei dati, il costo di sviluppo dell'applicazione è notevolmente ridotto.
  • Il tempo e lo sforzo dedicati alla raccolta dei dati per l'applicazione sono notevolmente ridotti poiché il set di dati è prontamente disponibile.
  • C'è un'abbondanza di forum della comunità o gruppi di aiuto che aiutano ad apprendere, adattare e ottimizzare il set di dati.
  • Uno dei principali vantaggi del set di dati open source è che non pone alcuna restrizione alla personalizzazione.
  •   I dati open source sono accessibili a un'ampia fascia della popolazione, rendendo possibile l'analisi e l'innovazione senza barriere monetarie.

Le sfide

  • I dati specifici del progetto sono difficili da acquisire. Inoltre, esiste la possibilità di informazioni mancanti e di un uso non corretto dei dati disponibili.
  • L'acquisizione di dati proprietari richiede tempo, fatica ed è costosa
  • Sebbene possa essere più facile acquisire dati, la conoscenza e il costo dell'analisi potrebbero superare il vantaggio iniziale.
  • Anche altri sviluppatori utilizzano gli stessi dati per sviluppare applicazioni.
  • Questi set di dati sono altamente vulnerabili alle violazioni della sicurezza, alla privacy e al consenso.

I 15 migliori set di dati di scrittura a mano e OCR per l'apprendimento automatico

Set di dati OCR open source

Molti set di dati open source sono disponibili per lo sviluppo di applicazioni di riconoscimento del testo. Alcuni dei migliori 15 lo sono

  1. Il set di dati ICDAR

    La Conferenza internazionale per l'analisi e il riconoscimento dei documenti ha un archivio di 229 immagini di formazione e 233 di test, insieme ad annotazioni. Funge da punto di riferimento per la valutazione del rilevamento del testo.

  2. Set di dati di 5 parole IIIT

    Tratto dalla ricerca di immagini di Google, IIIT 5K-word è una raccolta di parole da insegne, cartelloni pubblicitari, targhe e poster. Contiene immagini di parole ritagliate 5K che lo rendono una delle raccolte più ampie di set di dati di riconoscimento del testo disponibili.

  3. Database NIST

    Il NIST o il National Institute of Science offre una raccolta gratuita di oltre 3600 campioni di scrittura a mano con oltre 810,000 immagini di caratteri

  4. Database MNIST

    Derivato dal database speciale 1 e 3 di NSIT, il database MNIST è una raccolta compilata di 60,000 numeri scritti a mano per il set di addestramento e 10,000 esempi per il set di test. Questo database open source aiuta ad addestrare i modelli a riconoscere i modelli dedicando meno tempo alla pre-elaborazione.

  5. Rilevamento del testo

    Un database open source, il set di dati di rilevamento del testo contiene circa 500 immagini interne ed esterne di insegne, targhe delle porte, targhe di avvertenza e altro ancora.

  6. OCR di Stanford

    Pubblicato da Stanford, questo set di dati gratuito è una raccolta di parole scritte a mano dal MIT Spoken Language Systems Group.

  7. DDI-100

    Altrimenti chiamato Distorted Document Images Dataset, il DDI-100 è una raccolta di oltre 6658 pagine di documenti con diversi motivi geometrici e distorsioni applicati. Inoltre, il DDI-100 ha più di 99870 immagini, maschere di timbri, maschere di testo e riquadri di delimitazione.

  8. RoadText-1K

    Uno dei più grandi set di dati che aiutano ad addestrare i modelli per rilevare il testo nei video, RoadText-1K contiene 1000 video clip completi di annotazione del testo del riquadro di delimitazione e trascrizione del testo in ogni fotogramma video.

  9. MSRA-TD500

    Contiene 300 immagini di formazione e 200 di testo; l'MSRA-TD500 contiene caratteri delle lingue cinese e inglese ed è annotato a livello di frase.

  10. Set di dati MJSynth

    Fornito dall'Università di Oxford, questo set di dati di parole ha quasi 9 milioni di immagini generate sinteticamente che coprono più di 90mila parole in lingua inglese.

  11. Testo Street View

    Raccolta dalle immagini di Google Street View, questo set di dati contiene immagini di rilevamento del testo principalmente di pannelli e segnaletica a livello stradale.

  12. Database dei documenti

    Il database dei documenti è una raccolta di 941 documenti scritti a mano, tra cui tabelle, formule, disegni, diagrammi, elenchi e altro, di 189 scrittori.

  13. Espressioni matematiche

    The Mathematics Expressions è un database che contiene 101 simboli matematici e 10,000 espressioni.

  14. Numeri civici di Street View

    Raccolto da Google Street View, questo numero civico di Street View è un database contenente 73257 cifre del numero civico.

  15. OCR dell'ambiente naturale

    L'OCR per l'ambiente naturale è un set di dati di quasi 660 immagini in tutto il mondo e 5238 annotazioni di testo.

Questi erano alcuni dei migliori set di dati open source per l'addestramento di modelli ML per applicazioni di rilevamento del testo. La selezione di quella che si allinea alle esigenze aziendali e applicative potrebbe richiedere tempo e fatica. Tuttavia, è necessario sperimentare questi set di dati prima di decidere quello appropriato.

Per aiutarti a progredire verso un'applicazione di rilevamento del testo affidabile ed efficiente è Shaip, il fornitore di soluzioni tecnologiche di alto livello. Sfruttiamo la nostra esperienza tecnologica per creare personalizzazioni, ottimizzazioni e set di dati di addestramento OCR efficienti per vari progetti dei clienti. Per comprendere appieno le nostre capacità, contattaci oggi stesso.

Share sociale