Dokumentumintelligencia-olvasási modell
Ez a tartalom a következőre vonatkozik:v4.0 (GA) | Korábbi verziók:
v3.1 (GA)
v3.0 (GA)
Feljegyzés
Ha szöveget szeretne kinyerni külső képekből, például címkékből, utcatáblákból és plakátokból, használja az Azure AI Image Analysis v4.0 Olvasás funkcióját, amely általános (nem dokumentumalapú) képekhez van optimalizálva egy teljesítményalapú szinkron API-val. Ez a funkció megkönnyíti az OCR valós idejű felhasználói élménybe ágyazását.
A Dokumentumintelligencia olvasási optikai karakterfelismerési (OCR) modell nagyobb felbontásban fut, mint az Azure AI Vision Read, és kinyomtatja és kézzel írt szöveget nyer ki PDF-dokumentumokból és beolvasott képekből. Emellett támogatja a Microsoft Word-, Excel-, PowerPoint- és HTML-dokumentumokból történő szövegkigyűjtést is. Észleli a bekezdéseket, szövegsorokat, szavakat, helyeket és nyelveket. Az olvasási modell a dokumentumintelligencia egyéb előre összeállított modelljeinek (például az Elrendezés, Az Általános dokumentum, a Számla, a Nyugta, az Identitás (ID) dokumentum, az Állapotbiztosítási kártya és a W2 alapjául szolgáló OCR-motor az egyéni modelleken kívül.
Mi az optikai karakterfelismerés?
A dokumentumok optikai karakterfelismerése (OCR) több fájlformátumban és globális nyelven nagy méretű, szövegigényes dokumentumokhoz van optimalizálva. Olyan funkciókat tartalmaz, mint a dokumentumképek nagyobb felbontású vizsgálata a kisebb és sűrűbb szövegek jobb kezelése érdekében; bekezdésészlelés; és kitölthető űrlapkezelés. Az OCR-képességek olyan speciális forgatókönyveket is tartalmaznak, mint az egykarakterek, valamint a számlákban, nyugtákban és egyéb előre összeállított forgatókönyvekben gyakran használt kulcsmezők pontos kinyerése.
Fejlesztési lehetőségek (v4)
A Document Intelligence v4.0: 2024-11-30 (GA) a következő eszközöket, alkalmazásokat és kódtárakat támogatja:
Szolgáltatás | Források | Modellazonosító |
---|---|---|
OCR-modell olvasása | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
előre összeállított olvasás |
Bemeneti követelmények (v4)
Támogatott fájlformátumok:
Modell | Kép: JPEG/JPG , PNG , BMP , TIFF HEIF |
Microsoft Office: Word ( DOCX ), Excel (XLSX ), PowerPoint (PPTX ), HTML |
|
---|---|---|---|
Olvasás | ✔ | ✔ | ✔ |
Elrendezés | ✔ | ✔ | ✔ |
Általános dokumentum | ✔ | ✔ | |
Előre összeállított | ✔ | ✔ | |
Egyéni kinyerés | ✔ | ✔ | |
Egyéni besorolás | ✔ | ✔ | ✔ |
A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.
PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).
A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) szint, az
4
ingyenes (F0) szint esetén pedig MB.A képméreteknek 50 képpont x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.
Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.
A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül
8
150 pont/hüvelyk (DPI) pontszövegnek felel meg.Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.
Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete 50 MB a sablonmodellhez, a neurális modellhez pedig
1
GB.Egyéni besorolási modell betanítása esetén a betanítási adatok
1
teljes mérete GB, legfeljebb 10 000 oldal. 2024-11-30 (GA) esetén a betanítási adatok2
teljes mérete GB, legfeljebb 10 000 oldal.
Ismerkedés az olvasási modellel (v4)
Próbáljon meg szöveget kinyerni űrlapokból és dokumentumokból a Document Intelligence Studióval. A következő eszközökre van szüksége:
Azure-előfizetés – ingyenesen létrehozhat egyet.
Dokumentumintelligencia-példány az Azure Portalon. A szolgáltatás kipróbálásához használhatja az ingyenes tarifacsomagot (
F0
). Az erőforrás üzembe helyezése után válassza az Ugrás az erőforráshoz lehetőséget a kulcs és a végpont lekéréséhez.
Feljegyzés
A Document Intelligence Studio jelenleg nem támogatja a Microsoft Word, Excel, PowerPoint és HTML fájlformátumokat.
A Document Intelligence Studióval feldolgozott mintadokumentum
A Document Intelligence Studio kezdőlapján válassza az Olvasás lehetőséget.
Elemezheti a mintadokumentumot, vagy feltöltheti saját fájljait.
Válassza az Elemzés futtatása gombot, és szükség esetén konfigurálja az Elemzési beállításokat:
Támogatott nyelvek és területi beállítások (v4)
A támogatott nyelvek teljes listáját a Nyelvi támogatás – dokumentumelemzési modellek oldalon találja.
Adatkinyerés (v4)
Feljegyzés
A Microsoft Word- és HTML-fájlokat a 4.0-s verzió támogatja. A következő képességek jelenleg nem támogatottak:
- Nincs szög, szélesség/magasság és egység visszaadva az egyes oldalobjektumokkal.
- Nincs határoló sokszög vagy határolórégió az egyes észlelt objektumokhoz.
- Nincs visszaadott oldaltartomány (
pages
) paraméterként. - Nincs
lines
objektum.
Kereshető PDF-fájlok
A kereshető PDF-funkcióval analóg PDF-fájlokat, például beolvasott PDF-fájlokat konvertálhat beágyazott szöveggel rendelkező PDF-fájllá. A beágyazott szöveg lehetővé teszi a részletes szövegkeresést a PDF kinyert tartalmában az észlelt szöveges entitások képfájlokra való felülírásával.
Fontos
- Jelenleg csak a Read OCR modell
prebuilt-read
támogatja a kereshető PDF-funkciót. A funkció használatakor adja meg amodelId
következőtprebuilt-read
: . Más modelltípusok hibát adnak vissza ehhez az előzetes verzióhoz. - A kereshető PDF-fájl a
2024-11-30
GA-modellprebuilt-read
részét képezi, és nincs további költség a kereshető PDF-kimenet létrehozásához.
Kereshető PDF-fájlok használata
A kereshető PDF használatához küldjön egy kérést POST
a Analyze
művelettel, és adja meg a kimeneti formátumot a következő módon pdf
:
POST {endpoint}/documentintelligence/documentModels/prebuilt-read:analyze?_overload=analyzeDocument&api-version=2024-11-30&output=pdf
{...}
202
A művelet befejezésének lekérdezése Analyze
. A művelet befejezése után küldjön egy kérést GET
a művelet eredményeinek PDF-formátumának lekérésére Analyze
.
A sikeres befejezés után a PDF lekérhető és letölthető a következő formátumban application/pdf
: . Ez a művelet lehetővé teszi a PDF beágyazott szöveges formájának közvetlen letöltését a Base64 kódolású JSON helyett.
// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}
// Upon successful completion, retrieve the PDF as application/pdf.
GET {endpoint}/documentintelligence/documentModels/prebuilt-read/analyzeResults/{resultId}/pdf?api-version=2024-11-30
URI Parameters
Name In Required Type Description
endpoint path True
string
uri
The Document Intelligence service endpoint.
modelId path True
string
Unique document model name.
Regex pattern: ^[a-zA-Z0-9][a-zA-Z0-9._~-]{1,63}$
resultId path True
string
uuid
Analyze operation result ID.
api-version query True
string
The API version to use for this operation.
Responses
Name Type Description
200 OK
file
The request has succeeded.
Media Types: "application/pdf", "application/json"
Other Status Codes
DocumentIntelligenceErrorResponse
An unexpected error response.
Media Types: "application/pdf", "application/json"
Security
Ocp-Apim-Subscription-Key
Type: apiKey
In: header
OAuth2Auth
Type: oauth2
Flow: accessCode
Authorization URL: https://login.microsoftonline.com/common/oauth2/authorize
Token URL: https://login.microsoftonline.com/common/oauth2/token
Scopes
Name Description
https://cognitiveservices.azure.com/.default
Examples
Get Analyze Document Result PDF
Sample request
HTTP
HTTP
Copy
GET https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-invoice/analyzeResults/3b31320d-8bab-4f88-b19c-2322a7f11034/pdf?api-version=2024-11-30
Sample response
Status code:
200
JSON
Copy
"{pdfBinary}"
Definitions
Name Description
DocumentIntelligenceError
The error object.
DocumentIntelligenceErrorResponse
Error response object.
DocumentIntelligenceInnerError
An object containing more specific information about the error.
DocumentIntelligenceError
The error object.
Name Type Description
code
string
One of a server-defined set of error codes.
details
DocumentIntelligenceError[]
An array of details about specific errors that led to this reported error.
innererror
DocumentIntelligenceInnerError
An object containing more specific information than the current object about the error.
message
string
A human-readable representation of the error.
target
string
The target of the error.
DocumentIntelligenceErrorResponse
Error response object.
Name Type Description
error
DocumentIntelligenceError
Error info.
DocumentIntelligenceInnerError
An object containing more specific information about the error.
Name Type Description
code
string
One of a server-defined set of error codes.
innererror
DocumentIntelligenceInnerError
Inner error.
message
string
A human-readable representation of the error.
In this article
URI Parameters
Responses
Security
Examples
200 OK
Content-Type: application/pdf
Pages paraméter
A lapgyűjtemény a dokumentum lapjainak listája. Minden oldal egymás után jelenik meg a dokumentumban, és tartalmazza a tájolási szöget, amely azt jelzi, hogy az oldal elforgatva van-e, valamint a szélességet és a magasságot (képpontban megadott méretek). A modell kimenetének oldalegységei az alábbi módon lesznek kiszámítva:
Fájlformátum | Számított oldalegység | Összes oldal |
---|---|---|
Képek (JPEG/JPG, PNG, BMP, HEIF) | Minden kép = 1 oldalegység | Összes kép |
A PDF minden oldala = 1 oldalegység | A PDF összes oldala | |
ÖSSZETŰZÉS | A TIFF minden képe = 1 oldal | Összes kép a TIFF-ben |
Word (DOCX) | Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak | Legfeljebb 3000 karakter hosszúságú oldalak összesen |
Excel (XLSX) | Minden munkalap = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak | Munkalapok összesen |
PowerPoint (PPTX) | Minden dia = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak | Összes dia |
HTML | Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak | Legfeljebb 3000 karakter hosszúságú oldalak összesen |
# Analyze pages.
for page in result.pages:
print(f"----Analyzing document from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")
Lapok használata szövegkinyeréshez
Nagyméretű, többoldalas PDF-dokumentumok esetén a pages
lekérdezési paraméterrel konkrét oldalszámokat vagy oldaltartományokat jelölhet a szöveg kinyeréséhez.
Bekezdés kinyerése
A Dokumentumintelligencia olvasási OCR-modellje a gyűjteményben lévő összes azonosított szövegblokkot legfelső szintű objektumként analyzeResults
nyeri ki.paragraphs
A gyűjtemény minden bejegyzése egy szövegblokkot jelöl, és tartalmazza a kinyert szöveget éscontent
a határoló polygon
koordinátákat. Az span
információk a dokumentum teljes szövegét tartalmazó legfelső szintű content
tulajdonság szövegtöredékére mutatnak.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Szöveg, sorok és szavak kinyerése
A Read OCR modell kinyeri a nyomtatási és a kézzel írt stílusszöveget.lines
words
A modell a koordinátákat és confidence
a kinyert szavakat adja polygon
ki. A styles
gyűjtemény tartalmaz minden kézzel írt stílust a vonalakhoz, ha észlelik, valamint a társított szövegre mutató spanokat. Ez a funkció a támogatott kézzel írt nyelvekre vonatkozik.
A Microsoft Word, Az Excel, a PowerPoint és a HTML esetében a Dokumentumintelligencia-olvasási modell 3.1-s és újabb verziói az összes beágyazott szöveget kinyerik. A szövegek szavakként és bekezdésekként vannak extratolva. A beágyazott képek nem támogatottak.
# Analyze lines.
if page.lines:
for line_idx, line in enumerate(page.lines):
words = get_words(page, line)
print(
f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
)
# Analyze words.
for word in words:
print(f"......Word '{word.content}' has a confidence of {word.confidence}")
Kézzel írt stílus kinyerése
A válasz magában foglalja annak besorolását, hogy az egyes szövegsorok kézírásstílusúak-e vagy sem, valamint egy megbízhatósági pontszámot. További információ: kézzel írt nyelvi támogatás. Az alábbi példa egy JSON-kódrészletet mutat be.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Ha engedélyezte a betűtípus-/stílus hozzáadása funkciót, az objektum részeként is megkapja a styles
betűtípus/stílus eredményét.
Következő lépések v4.0
Végezze el a dokumentumintelligencia gyorsútmutatóját:
Ismerkedjen meg a REST API-val:
További minták keresése a GitHubon:
Feljegyzés
Ha szöveget szeretne kinyerni külső képekből, például címkékből, utcatáblákból és plakátokból, használja az Azure AI Image Analysis v4.0 Olvasás funkcióját, amely általános (nem dokumentumalapú) képekhez van optimalizálva egy teljesítményalapú szinkron API-val. Ez a funkció megkönnyíti az OCR valós idejű felhasználói élménybe ágyazását.
A Dokumentumintelligencia olvasási optikai karakterfelismerési (OCR) modell nagyobb felbontásban fut, mint az Azure AI Vision Read, és kinyomtatja és kézzel írt szöveget nyer ki PDF-dokumentumokból és beolvasott képekből. Emellett támogatja a Microsoft Word-, Excel-, PowerPoint- és HTML-dokumentumokból történő szövegkigyűjtést is. Észleli a bekezdéseket, szövegsorokat, szavakat, helyeket és nyelveket. Az olvasási modell a dokumentumintelligencia egyéb előre összeállított modelljeinek (például az Elrendezés, Az Általános dokumentum, a Számla, a Nyugta, az Identitás (ID) dokumentum, az Állapotbiztosítási kártya és a W2 alapjául szolgáló OCR-motor az egyéni modelleken kívül.
Mi az OCR a dokumentumokhoz?
A dokumentumok optikai karakterfelismerése (OCR) több fájlformátumban és globális nyelven nagy méretű, szövegigényes dokumentumokhoz van optimalizálva. Olyan funkciókat tartalmaz, mint a dokumentumképek nagyobb felbontású vizsgálata a kisebb és sűrűbb szövegek jobb kezelése érdekében; bekezdésészlelés; és kitölthető űrlapkezelés. Az OCR-képességek olyan speciális forgatókönyveket is tartalmaznak, mint az egykarakterek, valamint a számlákban, nyugtákban és egyéb előre összeállított forgatókönyvekben gyakran használt kulcsmezők pontos kinyerése.
Fejlesztési lehetőségek
A Document Intelligence v3.1 a következő eszközöket, alkalmazásokat és kódtárakat támogatja:
Szolgáltatás | Források | Modellazonosító |
---|---|---|
OCR-modell olvasása | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
előre összeállított olvasás |
A Document Intelligence 3.0-s verzió a következő eszközöket, alkalmazásokat és kódtárakat támogatja:
Szolgáltatás | Források | Modellazonosító |
---|---|---|
OCR-modell olvasása | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
előre összeállított olvasás |
Bemeneti követelmények
Támogatott fájlformátumok:
Modell | Kép: JPEG/JPG , PNG , BMP , TIFF HEIF |
Microsoft Office: Word ( DOCX ), Excel (XLSX ), PowerPoint (PPTX ), HTML |
|
---|---|---|---|
Olvasás | ✔ | ✔ | ✔ |
Elrendezés | ✔ | ✔ | ✔ |
Általános dokumentum | ✔ | ✔ | |
Előre összeállított | ✔ | ✔ | |
Egyéni kinyerés | ✔ | ✔ | |
Egyéni besorolás | ✔ | ✔ | ✔ |
A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.
PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).
A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) szint, az
4
ingyenes (F0) szint esetén pedig MB.A képméreteknek 50 képpont x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.
Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.
A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül
8
150 pont/hüvelyk (DPI) pontszövegnek felel meg.Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.
Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete 50 MB a sablonmodellhez, a neurális modellhez pedig
1
GB.Egyéni besorolási modell betanítása esetén a betanítási adatok
1
teljes mérete GB, legfeljebb 10 000 oldal. 2024-11-30 (GA) esetén a betanítási adatok2
teljes mérete GB, legfeljebb 10 000 oldal.
Ismerkedés az olvasási modellel
Próbáljon meg szöveget kinyerni űrlapokból és dokumentumokból a Document Intelligence Studióval. A következő eszközökre van szüksége:
Azure-előfizetés – ingyenesen létrehozhat egyet.
Dokumentumintelligencia-példány az Azure Portalon. A szolgáltatás kipróbálásához használhatja az ingyenes tarifacsomagot (
F0
). Az erőforrás üzembe helyezése után válassza az Ugrás az erőforráshoz lehetőséget a kulcs és a végpont lekéréséhez.
Feljegyzés
A Document Intelligence Studio jelenleg nem támogatja a Microsoft Word, Excel, PowerPoint és HTML fájlformátumokat.
A Document Intelligence Studióval feldolgozott mintadokumentum
A Document Intelligence Studio kezdőlapján válassza az Olvasás lehetőséget.
Elemezheti a mintadokumentumot, vagy feltöltheti saját fájljait.
Válassza az Elemzés futtatása gombot, és szükség esetén konfigurálja az Elemzési beállításokat:
Támogatott nyelvek és területi beállítások
A támogatott nyelvek teljes listáját a Nyelvi támogatás – dokumentumelemzési modellek oldalon találja.
Adatkinyerés
Feljegyzés
A Microsoft Word- és HTML-fájlokat a 4.0-s verzió támogatja. A következő képességek jelenleg nem támogatottak:
- Nincs szög, szélesség/magasság és egység visszaadva az egyes oldalobjektumokkal.
- Nincs határoló sokszög vagy határolórégió az egyes észlelt objektumokhoz.
- Nincs visszaadott oldaltartomány (
pages
) paraméterként. - Nincs
lines
objektum.
Kereshető PDF
A kereshető PDF-funkcióval analóg PDF-fájlokat, például beolvasott PDF-fájlokat konvertálhat beágyazott szöveggel rendelkező PDF-fájllá. A beágyazott szöveg lehetővé teszi a részletes szövegkeresést a PDF kinyert tartalmában az észlelt szöveges entitások képfájlokra való felülírásával.
Fontos
- Jelenleg csak az olvasási OCR-modell
prebuilt-read
támogatja a kereshető PDF-funkciót. A funkció használatakor adja meg amodelId
következőtprebuilt-read
: . Más modelltípusok hibát adnak vissza. - A kereshető PDF-fájl a
2024-11-30
prebuilt-read
modell részét képezi, és nincs hozzáadott költség a kereshető PDF-kimenet létrehozásához.- A kereshető PDF jelenleg csak bemenetként támogatja a PDF-fájlokat.
Kereshető PDF használata
A kereshető PDF használatához küldjön egy kérést POST
a Analyze
művelettel, és adja meg a kimeneti formátumot a következő módon pdf
:
POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202
A művelet befejezésének lekérdezése Analyze
. A művelet befejezése után küldjön egy kérést GET
a művelet eredményeinek PDF-formátumának lekérésére Analyze
.
A sikeres befejezés után a PDF lekérhető és letölthető a következő formátumban application/pdf
: . Ez a művelet lehetővé teszi a PDF beágyazott szöveges formájának közvetlen letöltését a Base64 kódolású JSON helyett.
// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}
// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf
Oldalak
A lapgyűjtemény a dokumentum lapjainak listája. Minden oldal egymás után jelenik meg a dokumentumban, és tartalmazza a tájolási szöget, amely azt jelzi, hogy az oldal elforgatva van-e, valamint a szélességet és a magasságot (képpontban megadott méretek). A modell kimenetének oldalegységei az alábbi módon lesznek kiszámítva:
Fájlformátum | Számított oldalegység | Összes oldal |
---|---|---|
Képek (JPEG/JPG, PNG, BMP, HEIF) | Minden kép = 1 oldalegység | Összes kép |
A PDF minden oldala = 1 oldalegység | A PDF összes oldala | |
ÖSSZETŰZÉS | A TIFF minden képe = 1 oldal | Összes kép a TIFF-ben |
Word (DOCX) | Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak | Legfeljebb 3000 karakter hosszúságú oldalak összesen |
Excel (XLSX) | Minden munkalap = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak | Munkalapok összesen |
PowerPoint (PPTX) | Minden dia = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak | Összes dia |
HTML | Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak | Legfeljebb 3000 karakter hosszúságú oldalak összesen |
"pages": [
{
"pageNumber": 1,
"angle": 0,
"width": 915,
"height": 1190,
"unit": "pixel",
"words": [],
"lines": [],
"spans": []
}
]
# Analyze pages.
for page in result.pages:
print(f"----Analyzing document from page #{page.page_number}----")
print(
f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
)
Oldalak kijelölése szövegkinyeréshez
Nagyméretű, többoldalas PDF-dokumentumok esetén a pages
lekérdezési paraméterrel konkrét oldalszámokat vagy oldaltartományokat jelölhet a szöveg kinyeréséhez.
Bekezdések
A Dokumentumintelligencia olvasási OCR-modellje a gyűjteményben lévő összes azonosított szövegblokkot legfelső szintű objektumként analyzeResults
nyeri ki.paragraphs
A gyűjtemény minden bejegyzése egy szövegblokkot jelöl, és tartalmazza a kinyert szöveget éscontent
a határoló polygon
koordinátákat. Az span
információk a dokumentum teljes szövegét tartalmazó legfelső szintű content
tulajdonság szövegtöredékére mutatnak.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Szöveg, sorok és szavak
A Read OCR modell kinyeri a nyomtatási és a kézzel írt stílusszöveget.lines
words
A modell a koordinátákat és confidence
a kinyert szavakat adja polygon
ki. A styles
gyűjtemény tartalmaz minden kézzel írt stílust a vonalakhoz, ha észlelik, valamint a társított szövegre mutató spanokat. Ez a funkció a támogatott kézzel írt nyelvekre vonatkozik.
A Microsoft Word, Az Excel, a PowerPoint és a HTML esetében a Dokumentumintelligencia-olvasási modell 3.1-s és újabb verziói az összes beágyazott szöveget kinyerik. A szövegek szavakként és bekezdésekként vannak extratolva. A beágyazott képek nem támogatottak.
"words": [
{
"content": "While",
"polygon": [],
"confidence": 0.997,
"span": {}
},
],
"lines": [
{
"content": "While healthcare is still in the early stages of its Al journey, we",
"polygon": [],
"spans": [],
}
]
# Analyze lines.
for line_idx, line in enumerate(page.lines):
words = line.get_words()
print(
f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
)
# Analyze words.
for word in words:
print(
f"......Word '{word.content}' has a confidence of {word.confidence}"
)
Kézzel írt stílus szövegsorokhoz
A válasz magában foglalja annak besorolását, hogy az egyes szövegsorok kézírásstílusúak-e vagy sem, valamint egy megbízhatósági pontszámot. További információ: kézzel írt nyelvi támogatás. Az alábbi példa egy JSON-kódrészletet mutat be.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Ha engedélyezte a betűtípus-/stílus hozzáadása funkciót, az objektum részeként is megkapja a styles
betűtípus/stílus eredményét.
Következő lépések
Végezze el a dokumentumintelligencia gyorsútmutatóját:
Ismerkedjen meg a REST API-val:
További minták keresése a GitHubon: