OCR – Optikai karakterfelismerés
Az OCR- vagy optikai karakterfelismerést szövegfelismerésnek vagy szövegkinyerésnek is nevezik. A gépi tanuláson alapuló OCR-technikákkal nyomtatott vagy kézzel írt szöveget nyerhet ki képekből, például plakátokból, utcatáblákból és termékcímkékből, valamint dokumentumokból, például cikkekből, jelentésekből, űrlapokból és számlákból. A szöveg általában szavak, szövegsorok, bekezdések vagy szövegblokkokként lesz kinyerve, lehetővé téve a beolvasott szöveg digitális verziójához való hozzáférést. Ez kiküszöböli vagy jelentősen csökkenti a manuális adatbevitel szükségességét.
OCR-motor
A Microsoft Read OCR motorja több fejlett gépi tanulási alapú modellből áll, amelyek támogatják a globális nyelveket. Képes nyomtatott és kézzel írt szövegek kinyerésében, beleértve a vegyes nyelveket és az írási stílusokat is. Az olvasás felhőszolgáltatásként és helyszíni tárolóként érhető el az üzembe helyezés rugalmassága érdekében. Szinkron API-ként is elérhető egyetlen, nem dokumentumból álló, csak képpel rendelkező forgatókönyvekhez, amelyek teljesítménybeli fejlesztései megkönnyítik az OCR által támogatott felhasználói élmények implementálását.
Figyelmeztetés
A v3.2-es verzióban az Azure AI Vision örökölt OCR API és a 2.1-es v2.1-es műveletekben található RecognizeText API nem ajánlott.
OCR (Olvasás) kiadások
Fontos
Válassza ki a követelményeknek leginkább megfelelő olvasási kiadást.
Bevitel | Példák | Kiadás olvasása | Juttatás |
---|---|---|---|
Képek: Általános, vadon élő képek | címkék, utcatáblák és plakátok | OCR képekhez (4.0-s verzió) | Általános, nem dokumentumképekhez optimalizált, teljesítmény-továbbfejlesztett szinkron API-val, amely megkönnyíti az OCR beágyazását a felhasználói élmény forgatókönyveibe. |
Dokumentumok: Digitális és szkennelt, képeket is beleértve | könyvek, cikkek és jelentések | Dokumentumintelligencia-olvasási modell | Aszinkron API-val szövegigényes beolvasott és digitális dokumentumokhoz optimalizálva az intelligens dokumentumfeldolgozás nagy léptékű automatizálásához. |
Tudnivalók az Azure AI Vision 3.2-s ga-olvasásáról
A legújabb Azure AI Vision v3.2 GA-olvasást keresi? A Read OCR jövőbeli fejlesztései a korábban felsorolt két szolgáltatás részét képezik. Nincsenek további frissítések az Azure AI Képfelismerés 3.2-höz. További információ: Az Azure AI Vision 3.2 GA Read API meghívása és rövid útmutató: Azure AI Vision v3.2 GA Read.
Hogyan kapcsolódik az OCR az intelligens dokumentumfeldolgozáshoz (IDP)?
Az intelligens dokumentumfeldolgozás (IDP) az OCR-t használja alapszintű technológiájaként a struktúra, kapcsolatok, kulcsértékek, entitások és egyéb dokumentumcentrikus elemzések kinyeréséhez egy fejlett gépi tanuláson alapuló AI-szolgáltatással, például a Dokumentumintelligencia szolgáltatással. A Dokumentumintelligencia ocR-motorként tartalmazza a Read dokumentumoptimalizált verzióját, miközben más modellekre delegál a magasabb szintű elemzésekhez. Ha beolvasott és digitális dokumentumokból nyer ki szöveget, használja a Dokumentumintelligencia olvasási OCR-t.
Az OCR használata
Próbálja ki az OCR-t a Vision Studióval. Ezután kövesse az olvasási kiadásra mutató hivatkozások egyikét, amely a legjobban megfelel a követelményeknek.
OCR által támogatott nyelvek
Az Azure AI Visionben ma elérhető olvasási verziók számos nyelvet támogatnak nyomtatott és kézzel írt szövegekhez. A nyomtatott szöveghez készült OCR támogatja az angol, francia, német, olasz, portugál, spanyol, kínai, japán, koreai, orosz, arab, hindi és más, latin, cirill, arab és devanagari szkripteket használó nemzetközi nyelveket. A kézzel írt szövegek ocr-jának támogatása az angol, a kínai egyszerűsített, a francia, a német, az olasz, a japán, a koreai, a portugál és a spanyol nyelv támogatását tartalmazza.
Tekintse meg az OCR által támogatott nyelvek teljes listáját.
AZ OCR gyakori funkciói
Az olvasási OCR-modell az Azure AI Visionben és a Dokumentumintelligencia szolgáltatásban érhető el, közös alapkonfigurációs képességekkel, miközben optimalizálja a megfelelő forgatókönyveket. Az alábbi lista a gyakori funkciókat foglalja össze:
- Nyomtatott és kézzel írt szöveg kinyerése támogatott nyelveken
- Oldalak, szövegsorok és szavak hely- és megbízhatósági pontszámokkal
- Vegyes nyelvek, vegyes mód (nyomtatás és kézzel írt) támogatása
- Disztribúció nélküli Docker-tárolóként érhető el a helyszíni üzembe helyezéshez
Az OCR felhőalapú API-k használata vagy helyszíni üzembe helyezés
A felhőalapú API-k a legtöbb ügyfél számára előnyben részesített lehetőségnek számítanak az egyszerű integráció és a gyors hatékonyság miatt. Az Azure és az Azure AI Vision szolgáltatás kezeli a méretezési, teljesítmény-, adatbiztonsági és megfelelőségi igényeket, miközben az ügyfelek igényeinek kielégítésére összpontosít.
A helyszíni üzembe helyezéshez a Read Docker-tárolóval üzembe helyezheti az Azure AI Vision 3.2-s általánosan elérhető OCR-képességeit a saját helyi környezetében. A tárolók kiválóan alkalmasak adott biztonsági és adatszabályozási követelményekhez.
Bemeneti követelmények
A Read API képeket és dokumentumokat készít bemenetként. A képeknek és a dokumentumoknak meg kell felelniük a következő követelményeknek:
- A támogatott fájlformátumok a JPEG, a PNG, a BMP, a PDF és a TIFF.
- A PDF- és TIFF-fájlok esetében legfeljebb 2000 oldal (az ingyenes szint esetében csak az első két oldal) lesz feldolgozva.
- A képek fájlméretének 500 MB-nál (az ingyenes szint esetén 4 MB-nál) kisebbnek kell lennie, és legalább 50 x 50 képpont méretűnek és legfeljebb 10 000 x 10 000 képpontnak kell lennie. A PDF-fájloknak nincs méretkorlátozása.
- A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768-as kép esetében, amely körülbelül 8 pontos betűtípusnak felel meg 150 DPI-n.
Feljegyzés
Szövegsorokhoz nem kell körülvágást elvégeznie. Küldje el a teljes képet a Read API-nak, és felismeri az összes szöveget.
OCR-adatok védelme és biztonsága
Az Azure AI-szolgáltatásokhoz hasonlóan az Azure AI Vision szolgáltatást használó fejlesztőknek is tisztában kell lenniük a Microsoft ügyféladatokra vonatkozó szabályzataival. További információért tekintse meg az Azure AI-szolgáltatások oldalát a Microsoft Adatvédelmi központban.
Következő lépések
- OCR általános (nem dokumentumos) rendszerképekhez: próbálja ki az Azure AI Vision 4.0 előzetes képelemzési REST API rövid útmutatóját.
- OCR PDF-, Office- és HTML-dokumentumokhoz és dokumentumképekhez: kezdje a Dokumentumintelligencia olvasásával.
- Az előző GA-verziót keresi? Tekintse meg az Azure AI Vision 3.2 GA SDK vagy a REST API rövid útmutatóit.