OCR veiksmai
Power Automate leidžia vartotojams skaityti, išskleisti ir tvarkyti failuose esančius duomenis naudojant optinį simbolių atpažinimą (OCR).
Norėdami sukurti OCR modulį ir išskleisti tekstą iš vaizdų ir dokumentų, naudokite veiksmą Išskleisti tekstą su OCR . Toliau pateiktame pavyzdyje tekstas ištraukiamas iš viso nurodyto vaizdo.
Visi OCR veiksmai gali sukurti naują OCR variklio kintamąjį arba naudoti esamą. Esamus OCR variklio kintamuosius galite naudoti atlikdami bet kokį veiksmą, kuris siūlo OCR galimybes.
Power Automate palaiko "Windows" OCR ir "Tesseract" variklius. Norėdami sukonfigūruoti pasirinktą OCR variklį, eikite į atitinkamo veiksmo OCR variklio nustatymus . Galimos parinktys apima kalbą ir vaizdo pločio bei aukščio daugiklius.
Pastaba.
- Visi turimi OCR varikliai yra iš anksto įdiegti Power Automate ir veikia vietoje, neprisijungdami prie debesies. Tačiau gali tekti atsisiųsti kalbų paketus arba duomenų failus, kad galėtumėte išgauti tekstus konkrečiomis kalbomis.
- Vaizdo daugikliai padidina vaizdo dydį, kad paieška ir teksto ištraukimas būtų efektyvesni. Nustačius didesnes nei tris vertes, rezultatai gali būti klaidingi.
"Windows" OCR modulio naudojimas
Numatytasis OCR variklis yra "Windows" OCR variklis Power Automate . Norėdami išskleisti tekstus naudodami "Windows" OCR modulį, turite įdiegti atitinkamos kalbos, kurią norite išskleisti, kalbos paketą.
Jei neįdiegtas tinkamas kalbos paketas, Power Automate pateikiama klaida ir raginama jį įdiegti. Norėdami rasti daugiau informacijos apie kalbų paketų atsisiuntimą ir diegimą, eikite į "Windows" kalbų paketai.
Įdiegę atitinkamą kalbos paketą, išplėskite OCR veiksmo OCR modulio nustatymus ir pasirinkite norimą kalbą. "Windows" OCR modulis palaiko 25 kalbas, įskaitant kinų (supaprastintą ir tradicinę), čekų, danų, olandų, anglų, suomių, prancūzų, vokiečių, graikų, vengrų, italų, japonų, korėjiečių, norvegų, lenkų, portugalų, rumunų, rusų, serbų (kirilicos ir lotynų), slovakų, ispanų, švedų ir turkų.
Naudokite "Tesseract" OCR variklį
Pastaba.
Norėdami pasinaudoti "Tesseract OCR" varikliu, įsitikinkite, kad įrenginio procesorius palaiko AVX2 instrukcijų rinkinį.
Be "Windows" OCR variklio, Power Automate palaiko "Tesseract" variklį. Šis variklis gali išgauti tekstą penkiomis kalbomis be papildomos konfigūracijos: anglų, vokiečių, ispanų, prancūzų ir italų.
Norėdami išskleisti tekstą kalba, neįtraukta į minėtą sąrašą, OCR veiksmo OCR modulio nustatymuose įjunkiteparinktį Naudoti kitas kalbas . Kai ši parinktis įjungta, veiksmas rodo dar du parametrus: Kalbos santrumpa ir Kalbos duomenų kelias.
Lauke Kalbos santrumpa varikliui nurodoma, kurios kalbos ieškoti OCR metu. Lauke Kalbos duomenų kelias yra kalbos duomenų failai (.traineddata), naudojami OCR varikliui mokyti. Visų galimų kalbų kalbos duomenų failus galite rasti šioje "GitHub" saugykloje.
Taip pat galite naudoti "Tesseract" variklį, kad išgautumėte tekstą iš daugiakalbių dokumentų. Norėdami rasti daugiau informacijos apie teksto išskleidimą iš daugiakalbių dokumentų, eikite į Daugiakalbių dokumentų OCR atlikimas.
Jei tekstas ekrane (OCR)
Žymi sąlyginio veiksmų bloko pradžią, priklausomai nuo to, ar tam tikras tekstas rodomas ekrane, ar ne, naudojant OCR.
Įvesties parametrai
Argumentas | Pasirinktinai | Priima | Numatytoji vertė | Aprašą |
---|---|---|---|---|
Jei tekstas | Nėra | Egzistuoja, neegzistuoja | Yra | Nurodo, ar reikia tikrinti, ar pateiktame šaltinyje yra tekstas, kurį reikia analizuoti |
OCR modulio tipas | No | "Windows" OCR variklis, "Tesseract" variklis, OCR variklio kintamasis | OCR modulio kintamasis | Naudotinas OCR variklio tipas. Pasirinkite iš anksto sukonfigūruotą OCR variklį arba nustatykite naują. |
OCR modulio kintamasis | No | OCREngineObject | Modulis, naudojamas OCR operacijai | |
Tekstas, kurį reikia rasti | No | Teksto reikšmė | Tekstas, kurio reikia ieškoti nurodytame šaltinyje | |
Yra reguliarusis reiškinys | Nėra | Bulio logikos reikšmė | Klaidinga | Nurodo, ar naudoti paprastąją išraišką norint rasti nurodytą tekstą |
Ieškoti teksto | Nėra | Visas ekranas, priekinio plano langas | Visas ekranas | Nurodo, ar ieškoti nurodyto teksto visame matomame ekrane, ar tik priekinio plano lange |
Ieškos režimas | Nėra | Visas nurodytas šaltinis, tik konkretus subregionas, subregionas, susijęs su vaizdu | Visas nurodytas šaltinis | Nurodo, ar nuskaityti visą ekraną (arba langą), ar susiaurintą jo subregioną |
Vaizdas (-ai) | No | Vaizdųsąrašas | Vaizdas (-ai), nurodantis (-ys) antrinę sritį (pagal viršutinį kairįjį vaizdo kampą), kurią reikia nuskaityti ieškant pateikto teksto | |
X1 | Taip | Skaitinė reikšmė | Antrinės srities, kurią reikia nuskaityti ieškant pateikto teksto, pradžios X koordinatė | |
Nuokrypis | Taip | Skaitinė reikšmė | 10 | Nurodo, kiek ieškomas (-i) vaizdas (-ai) gali skirtis nuo iš pradžių pasirinkto vaizdo |
Y1 | Taip | Skaitinė reikšmė | Antrinės srities, kurią reikia nuskaityti ieškant pateikto teksto, pradžios Y koordinatė | |
X1 | Taip | Skaitinė reikšmė | Antrinės srities pradžios X koordinatė, susieta su nurodytu vaizdu, kurį reikia nuskaityti ieškant pateikto teksto | |
X2 | Taip | Skaitinė reikšmė | Antrinės srities, kurią reikia nuskaityti ieškant pateikto teksto, pabaigos X koordinatė | |
Y1 | Taip | Skaitinė reikšmė | Antrinės srities pradžios Y koordinatė, susieta su nurodytu vaizdu, kurį reikia nuskaityti ieškant pateikto teksto | |
Y2 | Taip | Skaitinė reikšmė | Antrinės srities, kurią reikia nuskaityti ieškant pateikto teksto, pabaigos Y koordinatė | |
X2 | Taip | Skaitinė reikšmė | Antrinės srities pabaigos X koordinatė, susieta su nurodytu vaizdu, kurį reikia nuskaityti ieškant pateikto teksto | |
Y2 | Taip | Skaitinė reikšmė | Antrinės srities pabaigos Y koordinatė, susieta su nurodytu vaizdu, kurį reikia nuskaityti ieškant pateikto teksto | |
„Windows OCR“ kalba | Nėra | Anglų, čekų, danų, graikų, ispanų, italų, japonų, kinų (supaprastinta), kinų (tradicinė), kinų (tradicinė), korėjiečių, lenkų, norvegų, olandų, portugalų, prancūzų, rumunų, rusų, serbų (kirilica), serbų (lotynų), slovakų, ispanų, švedų, turkų | English | Teksto, kurį aptinka "Windows" OCR modulis, kalba |
Naudoti kitą kalbą | Nėra | Bulio logikos reikšmė | Klaidinga | Nurodo, ar naudoti kalbą, kuri nėra pateikta lauke „Tesseract“ kalba |
„Tesseract“ kalba | Nėra | Anglų, vokiečių, ispanų, prancūzų, italų | English | Teksto, kurį aptinka „Tesseract“ modulis, kalba |
Kalbos santrumpa | No | Teksto reikšmė | Vartojamos kalbos santrumpa "Tesseract". Pavyzdžiui, jei duomenys yra "eng.traineddata", nustatykite šį parametrą į "eng" | |
Kalbos duomenų kelias | No | Teksto reikšmė | Aplanko kelias, kuriame yra nurodytos kalbos „Tesseract“ duomenys | |
Vaizdo pločio daugiklis | No | Skaitinė reikšmė | 1 | Vaizdo pločio daugiklis |
Vaizdo aukščio daugiklis | No | Skaitinė reikšmė | 1 | Vaizdo aukščio daugiklis |
Vaizdų atitikimo algoritmas | Nėra | Bazinis, išplėstinis | Paprastasis | Kurį vaizdo algoritmą naudoti ieškant vaizdo |
Pastaba.
- Power Automate's reguliariosios išraiškos variklis yra .NET. Norėdami rasti daugiau informacijos apie paprastąsias išraiškas, eikite į Paprastųjų reiškinių kalba – sparčioji nuoroda.
- Planuojama, kad OCR variklio kintamojo parinktis bus nebenaudojama.
Pateikti kintamieji
Argumentas | Tipas | Aprašą |
---|---|---|
VietaOfTextFoundX | Skaitinė reikšmė | Taško, kuriame tekstas rodomas ekrane, X koordinatė. Jei paieška atliekama priekinio plano lange, pateikta koordinatė yra susijusi su viršutiniu kairiuoju lango kampu |
LocationOfTextFoundY | Skaitinė reikšmė | Taško, kuriame tekstas rodomas ekrane, X koordinatė. Jei paieška atliekama priekinio plano lange, pateikta koordinatė yra susijusi su viršutiniu kairiuoju lango kampu |
Išimtys
Išimtis | Aprašą |
---|---|
Neinteraktyviuoju režimu negalima patikrinti, ar tekstas yra | Nurodo, kad neįmanoma patikrinti teksto ekrane neinteraktyviuoju režimu |
Netinkamos antrinės srities koordinatės | Nurodo, kad nurodytos antrinės srities koordinatės yra netinkamos |
Nepavyko analizuoti teksto naudojant OCR | Nurodo klaidą, įvykusią bandant analizuoti tekstą naudojant OCR |
Nepavyko sukurti OCR modulio | Nurodo klaidą, įvykusią bandant sukurti OCR modulį |
Nėra duomenų kelio aplanko | Nurodo, kad nėra nurodyto kalbos duomenų aplanko |
Pasirinktas „Windows“ kalbos paketas įrenginyje neįdiegtas | Nurodo, kad pasirinktas "Windows" kalbos paketas nebuvo įdiegtas įrenginyje |
OCR modulis neveikia | Nurodo, kad OCR modulis neveikia |
Laukti, kol ekrane bus rodomas tekstas (OCR)
Palaukite, kol konkretus tekstas pasirodys / išnyks ekrane, priekinio plano lange arba palyginti su vaizdu ekrane ar priekinio plano lange, naudojant OCR.
Įvesties parametrai
Argumentas | Pasirinktinai | Priima | Numatytoji vertė | Aprašą |
---|---|---|---|---|
Palaukite, kol tekstas bus | Nėra | Pasirodo, išnyksta | Rodomas | Nurodo, ar laukti, kol tekstas pasirodys arba nebebus rodomas |
OCR modulio tipas | No | "Windows" OCR variklis, "Tesseract" variklis, OCR variklio kintamasis | OCR modulio kintamasis | Naudotinas OCR variklio tipas. Pasirinkite iš anksto sukonfigūruotą OCR variklį arba nustatykite naują. |
OCR modulio kintamasis | No | OCREngineObject | Modulis, naudojamas OCR operacijai | |
Tekstas, kurį reikia rasti | No | Teksto reikšmė | Tekstas, kurio reikia ieškoti nurodytame šaltinyje | |
Yra reguliarusis reiškinys | Nėra | Bulio logikos reikšmė | Klaidinga | Nurodo, ar naudoti paprastąją išraišką norint rasti nurodytą tekstą |
Ieškoti teksto | Nėra | Visas ekranas, priekinio plano langas | Visas ekranas | Nurodo, ar ieškoti nurodyto teksto visame matomame ekrane, ar tik priekinio plano lange |
Ieškos režimas | Nėra | Visas nurodytas šaltinis, tik konkretus subregionas, subregionas, susijęs su vaizdu | Visas nurodytas šaltinis | Nurodo, ar nuskaityti visą ekraną (arba langą), ar susiaurintą jo subregioną |
Vaizdas (-ai) | No | Vaizdųsąrašas | Vaizdas (-ai), nurodantis (-ys) antrinę sritį (pagal viršutinį kairįjį vaizdo kampą), kurią reikia nuskaityti ieškant pateikto teksto | |
X1 | Taip | Skaitinė reikšmė | Antrinės srities, kurią reikia nuskaityti ieškant pateikto teksto, pradžios X koordinatė | |
Nuokrypis | Taip | Skaitinė reikšmė | 10 | Nurodo, kiek ieškomas (-i) vaizdas (-ai) gali skirtis nuo iš pradžių pasirinkto vaizdo |
Y1 | Taip | Skaitinė reikšmė | Antrinės srities, kurią reikia nuskaityti ieškant pateikto teksto, pradžios Y koordinatė | |
X1 | Taip | Skaitinė reikšmė | Antrinės srities pradžios X koordinatė, susieta su nurodytu vaizdu, kurį reikia nuskaityti ieškant pateikto teksto | |
X2 | Taip | Skaitinė reikšmė | Antrinės srities, kurią reikia nuskaityti ieškant pateikto teksto, pabaigos X koordinatė | |
Y1 | Taip | Skaitinė reikšmė | Antrinės srities pradžios Y koordinatė, susieta su nurodytu vaizdu, kurį reikia nuskaityti ieškant pateikto teksto | |
Y2 | Taip | Skaitinė reikšmė | Antrinės srities, kurią reikia nuskaityti ieškant pateikto teksto, pabaigos Y koordinatė | |
X2 | Taip | Skaitinė reikšmė | Antrinės srities pabaigos X koordinatė, susieta su nurodytu vaizdu, kurį reikia nuskaityti ieškant pateikto teksto | |
Y2 | Taip | Skaitinė reikšmė | Antrinės srities pabaigos Y koordinatė, susieta su nurodytu vaizdu, kurį reikia nuskaityti ieškant pateikto teksto | |
„Windows OCR“ kalba | Nėra | Anglų, čekų, danų, graikų, ispanų, italų, japonų, kinų (supaprastinta), kinų (tradicinė), kinų (tradicinė), korėjiečių, lenkų, norvegų, olandų, portugalų, prancūzų, rumunų, rusų, serbų (kirilica), serbų (lotynų), slovakų, ispanų, švedų, turkų | English | Teksto, kurį aptinka "Windows" OCR modulis, kalba |
Naudoti kitą kalbą | Nėra | Bulio logikos reikšmė | Klaidinga | Nurodo, ar naudoti kalbą, kuri nėra pateikta lauke „Tesseract“ kalba |
„Tesseract“ kalba | Nėra | Anglų, vokiečių, ispanų, prancūzų, italų | English | Teksto, kurį aptinka „Tesseract“ modulis, kalba |
Kalbos santrumpa | No | Teksto reikšmė | Vartojamos kalbos santrumpa "Tesseract". Pavyzdžiui, jei duomenys yra "eng.traineddata", nustatykite šį parametrą į "eng" | |
Kalbos duomenų kelias | No | Teksto reikšmė | Aplanko kelias, kuriame yra nurodytos kalbos „Tesseract“ duomenys | |
Vaizdo pločio daugiklis | No | Skaitinė reikšmė | 1 | Vaizdo pločio daugiklis |
Vaizdo aukščio daugiklis | No | Skaitinė reikšmė | 1 | Vaizdo aukščio daugiklis |
Vaizdų atitikimo algoritmas | Nėra | Bazinis, išplėstinis | Paprastasis | Kurį vaizdo algoritmą naudoti ieškant vaizdo |
Trikties pasibaigus skirtajam laikui klaida | Nėra | Bulio logikos reikšmė | Klaidinga | Nurodykite, ar norite, kad veiksmas lauktų neribotą laiką ar nepavyktų po nustatyto laikotarpio |
Pastaba.
- Power Automate's reguliariosios išraiškos variklis yra .NET. Norėdami rasti daugiau informacijos apie paprastąsias išraiškas, eikite į Paprastųjų reiškinių kalba – sparčioji nuoroda.
- Planuojama, kad OCR variklio kintamojo parinktis bus nebenaudojama.
Pateikti kintamieji
Argumentas | Tipas | Aprašą |
---|---|---|
VietaOfTextFoundX | Skaitinė reikšmė | Taško, kuriame tekstas rodomas ekrane, X koordinatė. Jei paieška atliekama priekinio plano lange, pateikta koordinatė yra susijusi su viršutiniu kairiuoju lango kampu |
LocationOfTextFoundY | Skaitinė reikšmė | Taško, kuriame tekstas rodomas ekrane, X koordinatė. Jei paieška atliekama priekinio plano lange, pateikta koordinatė yra susijusi su viršutiniu kairiuoju lango kampu |
Išimtys
Išimtis | Aprašą |
---|---|
Neinteraktyviuoju režimu negalima patikrinti, ar tekstas yra | Nurodo, kad neįmanoma patikrinti teksto ekrane neinteraktyviuoju režimu |
Netinkamos antrinės srities koordinatės | Nurodo, kad nurodytos antrinės srities koordinatės yra netinkamos |
Nepavyko analizuoti teksto naudojant OCR | Nurodo klaidą, įvykusią bandant analizuoti tekstą naudojant OCR |
Nepavyko sukurti OCR modulio | Nurodo klaidą, įvykusią bandant sukurti OCR modulį |
Nėra duomenų kelio aplanko | Nurodo, kad nėra nurodyto kalbos duomenų aplanko |
Pasirinktas „Windows“ kalbos paketas įrenginyje neįdiegtas | Nurodo, kad pasirinktas "Windows" kalbos paketas nebuvo įdiegtas įrenginyje |
OCR modulis neveikia | Nurodo, kad OCR modulis neveikia |
Skirtojo laiko klaida | Nurodo, kad atlikus nustatytą laikotarpį veiksmas nepavyko |
Gauti tekstą naudojant OCR
Ištraukite tekstą iš nurodyto šaltinio naudodami nurodytą OCR variklį.
Įvesties parametrai
Argumentas | Pasirinktinai | Priima | Numatytoji vertė | Aprašą |
---|---|---|---|---|
OCR modulis | No | "Windows" OCR variklis, "Tesseract" variklis, OCR variklio kintamasis | OCR modulio kintamasis | Naudotinas OCR variklio tipas. Pasirinkite iš anksto sukonfigūruotą OCR variklį arba nustatykite naują |
OCR modulio kintamasis | No | OCREngineObject | Modulis, naudojamas OCR operacijai | |
OCR šaltinis | Nėra | Ekranas, priekinio plano langas, vaizdas diske | Ekranas | Vaizdo šaltinis OCR operacijai atlikti |
Vaizdo failo kelias | No | Failas | Vaizdo kelias, skirtas OCR operacijai atlikti | |
Ieškos režimas | Nėra | Visas nurodytas šaltinis, tik konkretus subregionas, subregionas, susijęs su vaizdu | Visas nurodytas šaltinis | Pasirinktas režimas OCR operacijai |
Image | No | Vaizdųsąrašas | Vaizdas, naudojamas susiaurinti nuskaitymą iki subregiono, kuris yra susijęs su nurodytu vaizdu | |
Nuokrypis | Taip | Skaitinė reikšmė | 10 | Nurodo, kiek vaizdas gali skirtis nuo iš pradžių pasirinkto vaizdo |
X1 | Taip | Skaitinė reikšmė | Antrinės srities pradžios X koordinatė nuskaitomai sričiai susiaurinti | |
X2 | Taip | Skaitinė reikšmė | Antrinės srities pabaigos X koordinatė nuskaitomai sričiai susiaurinti | |
Y1 | Taip | Skaitinė reikšmė | Antrinės srities pradžios Y koordinatė nuskaitomai sričiai susiaurinti | |
Y2 | Taip | Skaitinė reikšmė | Antrinės srities pabaigos Y koordinatė nuskaitomai sričiai susiaurinti | |
„Windows OCR“ kalba | Nėra | Anglų, čekų, danų, graikų, ispanų, italų, japonų, kinų (supaprastinta), kinų (tradicinė), kinų (tradicinė), korėjiečių, lenkų, norvegų, olandų, portugalų, prancūzų, rumunų, rusų, serbų (kirilica), serbų (lotynų), slovakų, ispanų, švedų, turkų | English | Teksto, kurį aptinka "Windows" OCR modulis, kalba |
Naudoti kitą kalbą | Nėra | Bulio logikos reikšmė | Klaidinga | Nurodo, ar naudoti kalbą, kuri nėra pateikta lauke „Tesseract“ kalba |
„Tesseract“ kalba | Nėra | Anglų, vokiečių, ispanų, prancūzų, italų | English | Teksto, kurį aptinka „Tesseract“ modulis, kalba |
Kalbos santrumpa | No | Teksto reikšmė | Vartojamos kalbos santrumpa "Tesseract". Pavyzdžiui, jei duomenys yra "eng.traineddata", nustatykite šį parametrą į "eng" | |
Kalbos duomenų kelias | No | Teksto reikšmė | Aplanko kelias, kuriame yra nurodytos kalbos „Tesseract“ duomenys | |
Vaizdo pločio daugiklis | No | Skaitinė reikšmė | 1 | Vaizdo pločio daugiklis |
Vaizdo aukščio daugiklis | No | Skaitinė reikšmė | 1 | Vaizdo aukščio daugiklis |
Laukti, kol bus rodomas vaizdas | Nėra | Bulio logikos reikšmė | Teisinga | Nurodo, ar laukti, kol vaizdas bus rodomas ekrane arba priekinio plano lange |
Skirtasis laikas | No | Skaitinė reikšmė | 5 | Nurodo laiką, kurį reikia laukti, kol operacija bus užbaigta, ir tada rodyti, kad veiksmas nepavyko |
Vaizdų atitikimo algoritmas | Nėra | Bazinis, išplėstinis | Paprastasis | Kurį vaizdo algoritmą naudoti ieškant vaizdo |
Pastaba.
Planuojama, kad OCR variklio kintamojo parinktis bus nebenaudojama.
Pateikti kintamieji
Argumentas | Tipas | Aprašą |
---|---|---|
OcrText | Teksto reikšmė | Rezultatas po teksto ištraukimo |
Išimtys
Išimtis | Aprašą |
---|---|
Nepavyko gauti teksto naudojant OCR | Nurodo klaidą bandant gauti tekstą naudojant OCR iš nurodyto šaltinio |
Vaizdo failas nerastas | Nurodo, kad failo nėra pateiktame kelyje |
Orientyro vaizdas nerastas | Nurodo, kad orientyro vaizdo nėra |
Negalima gauti teksto iš ekrano neinteraktyviuoju režimu | Nurodo, kad neįmanoma gauti teksto iš ekrano neinteraktyviuoju režimu |
Nepavyko sukurti OCR modulio | Nurodo klaidą, įvykusią bandant sukurti OCR modulį |
Nėra duomenų kelio aplanko | Nurodo, kad nėra nurodyto kalbos duomenų aplanko |
Pasirinktas „Windows“ kalbos paketas įrenginyje neįdiegtas | Nurodo, kad pasirinktas "Windows" kalbos paketas nebuvo įdiegtas įrenginyje |
OCR modulis neveikia | Nurodo, kad OCR modulis neveikia |