Megosztás a következőn keresztül:


Dokumentumintelligencia-olvasási modell

Ez a tartalom a következőre vonatkozik:Sakkv4.0 (GA) | Korábbi verziók: kék pipav3.1 (GA)kék pipav3.0 (GA)

Feljegyzés

Ha szöveget szeretne kinyerni külső képekből, például címkékből, utcatáblákból és plakátokból, használja az Azure AI Image Analysis v4.0 Olvasás funkcióját, amely általános (nem dokumentumalapú) képekhez van optimalizálva egy teljesítményalapú szinkron API-val. Ez a funkció megkönnyíti az OCR valós idejű felhasználói élménybe ágyazását.

A Dokumentumintelligencia olvasási optikai karakterfelismerési (OCR) modell nagyobb felbontásban fut, mint az Azure AI Vision Read, és kinyomtatja és kézzel írt szöveget nyer ki PDF-dokumentumokból és beolvasott képekből. Emellett támogatja a Microsoft Word-, Excel-, PowerPoint- és HTML-dokumentumokból történő szövegkigyűjtést is. Észleli a bekezdéseket, szövegsorokat, szavakat, helyeket és nyelveket. Az olvasási modell a dokumentumintelligencia egyéb előre összeállított modelljeinek (például az Elrendezés, Az Általános dokumentum, a Számla, a Nyugta, az Identitás (ID) dokumentum, az Állapotbiztosítási kártya és a W2 alapjául szolgáló OCR-motor az egyéni modelleken kívül.

Mi az optikai karakterfelismerés?

A dokumentumok optikai karakterfelismerése (OCR) több fájlformátumban és globális nyelven nagy méretű, szövegigényes dokumentumokhoz van optimalizálva. Olyan funkciókat tartalmaz, mint a dokumentumképek nagyobb felbontású vizsgálata a kisebb és sűrűbb szövegek jobb kezelése érdekében; bekezdésészlelés; és kitölthető űrlapkezelés. Az OCR-képességek olyan speciális forgatókönyveket is tartalmaznak, mint az egykarakterek, valamint a számlákban, nyugtákban és egyéb előre összeállított forgatókönyvekben gyakran használt kulcsmezők pontos kinyerése.

Fejlesztési lehetőségek (v4)

A Document Intelligence v4.0: 2024-11-30 (GA) a következő eszközöket, alkalmazásokat és kódtárakat támogatja:

Szolgáltatás Források Modellazonosító
OCR-modell olvasása Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
előre összeállított olvasás

Bemeneti követelmények (v4)

Támogatott fájlformátumok:

Modell PDF Kép:
JPEG/JPG, PNG, BMP, TIFFHEIF
Microsoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Olvasás
Elrendezés
Általános dokumentum
Előre összeállított
Egyéni kinyerés
Egyéni besorolás
  • A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.

  • PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).

  • A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) szint, az 4 ingyenes (F0) szint esetén pedig MB.

  • A képméreteknek 50 képpont x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.

  • Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.

  • A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül 8 150 pont/hüvelyk (DPI) pontszövegnek felel meg.

  • Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.

    • Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete 50 MB a sablonmodellhez, a neurális modellhez pedig 1 GB.

    • Egyéni besorolási modell betanítása esetén a betanítási adatok 1 teljes mérete GB, legfeljebb 10 000 oldal. 2024-11-30 (GA) esetén a betanítási adatok 2 teljes mérete GB, legfeljebb 10 000 oldal.

Ismerkedés az olvasási modellel (v4)

Próbáljon meg szöveget kinyerni űrlapokból és dokumentumokból a Document Intelligence Studióval. A következő eszközökre van szüksége:

  • Azure-előfizetés – ingyenesen létrehozhat egyet.

  • Dokumentumintelligencia-példány az Azure Portalon. A szolgáltatás kipróbálásához használhatja az ingyenes tarifacsomagot (F0). Az erőforrás üzembe helyezése után válassza az Ugrás az erőforráshoz lehetőséget a kulcs és a végpont lekéréséhez.

    Képernyőkép a kulcsok és a végpontok helyéről az Azure Portalon.

Feljegyzés

A Document Intelligence Studio jelenleg nem támogatja a Microsoft Word, Excel, PowerPoint és HTML fájlformátumokat.

A Document Intelligence Studióval feldolgozott mintadokumentum

Képernyőkép az olvasási feldolgozásról a Document Intelligence Studióban.

  1. A Document Intelligence Studio kezdőlapján válassza az Olvasás lehetőséget.

  2. Elemezheti a mintadokumentumot, vagy feltöltheti saját fájljait.

  3. Válassza az Elemzés futtatása gombot, és szükség esetén konfigurálja az Elemzési beállításokat:

    Képernyőkép a Document Intelligence Studio Elemzés és elemzés beállításai gombjairól.

Támogatott nyelvek és területi beállítások (v4)

A támogatott nyelvek teljes listáját a Nyelvi támogatás – dokumentumelemzési modellek oldalon találja.

Adatkinyerés (v4)

Feljegyzés

A Microsoft Word- és HTML-fájlokat a 4.0-s verzió támogatja. A következő képességek jelenleg nem támogatottak:

  • Nincs szög, szélesség/magasság és egység visszaadva az egyes oldalobjektumokkal.
  • Nincs határoló sokszög vagy határolórégió az egyes észlelt objektumokhoz.
  • Nincs visszaadott oldaltartomány (pages) paraméterként.
  • Nincs lines objektum.

Kereshető PDF-fájlok

A kereshető PDF-funkcióval analóg PDF-fájlokat, például beolvasott PDF-fájlokat konvertálhat beágyazott szöveggel rendelkező PDF-fájllá. A beágyazott szöveg lehetővé teszi a részletes szövegkeresést a PDF kinyert tartalmában az észlelt szöveges entitások képfájlokra való felülírásával.

Fontos

  • Jelenleg csak a Read OCR modell prebuilt-read támogatja a kereshető PDF-funkciót. A funkció használatakor adja meg a modelId következőt prebuilt-read: . Más modelltípusok hibát adnak vissza ehhez az előzetes verzióhoz.
  • A kereshető PDF-fájl a 2024-11-30 GA-modell prebuilt-read részét képezi, és nincs további költség a kereshető PDF-kimenet létrehozásához.

Kereshető PDF-fájlok használata

A kereshető PDF használatához küldjön egy kérést POST a Analyze művelettel, és adja meg a kimeneti formátumot a következő módon pdf:


     POST {endpoint}/documentintelligence/documentModels/prebuilt-read:analyze?_overload=analyzeDocument&api-version=2024-11-30&output=pdf
     {...}
     202

A művelet befejezésének lekérdezése Analyze . A művelet befejezése után küldjön egy kérést GET a művelet eredményeinek PDF-formátumának lekérésére Analyze .

A sikeres befejezés után a PDF lekérhető és letölthető a következő formátumban application/pdf: . Ez a művelet lehetővé teszi a PDF beágyazott szöveges formájának közvetlen letöltését a Base64 kódolású JSON helyett.


     // Monitor the operation until completion.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}
     200
     {...}

     // Upon successful completion, retrieve the PDF as application/pdf.
     GET {endpoint}/documentintelligence/documentModels/prebuilt-read/analyzeResults/{resultId}/pdf?api-version=2024-11-30
URI Parameters
Name    In    Required    Type    Description
endpoint    path    True    
string

uri    
The Document Intelligence service endpoint.

modelId    path    True    
string

Unique document model name.

Regex pattern: ^[a-zA-Z0-9][a-zA-Z0-9._~-]{1,63}$

resultId    path    True    
string

uuid    
Analyze operation result ID.

api-version    query    True    
string

The API version to use for this operation.

Responses
Name    Type    Description
200 OK    
file

The request has succeeded.

Media Types: "application/pdf", "application/json"

Other Status Codes    
DocumentIntelligenceErrorResponse

An unexpected error response.

Media Types: "application/pdf", "application/json"

Security
Ocp-Apim-Subscription-Key
Type: apiKey
In: header

OAuth2Auth
Type: oauth2
Flow: accessCode
Authorization URL: https://login.microsoftonline.com/common/oauth2/authorize
Token URL: https://login.microsoftonline.com/common/oauth2/token

Scopes
Name    Description
https://cognitiveservices.azure.com/.default    
Examples
Get Analyze Document Result PDF
Sample request
HTTP
HTTP

Copy
GET https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-invoice/analyzeResults/3b31320d-8bab-4f88-b19c-2322a7f11034/pdf?api-version=2024-11-30
Sample response
Status code:
200
JSON

Copy
"{pdfBinary}"
Definitions
Name    Description
DocumentIntelligenceError    
The error object.

DocumentIntelligenceErrorResponse    
Error response object.

DocumentIntelligenceInnerError    
An object containing more specific information about the error.

DocumentIntelligenceError
The error object.

Name    Type    Description
code    
string

One of a server-defined set of error codes.

details    
DocumentIntelligenceError[]

An array of details about specific errors that led to this reported error.

innererror    
DocumentIntelligenceInnerError

An object containing more specific information than the current object about the error.

message    
string

A human-readable representation of the error.

target    
string

The target of the error.

DocumentIntelligenceErrorResponse
Error response object.

Name    Type    Description
error    
DocumentIntelligenceError

Error info.

DocumentIntelligenceInnerError
An object containing more specific information about the error.

Name    Type    Description
code    
string

One of a server-defined set of error codes.

innererror    
DocumentIntelligenceInnerError

Inner error.

message    
string

A human-readable representation of the error.

In this article
URI Parameters
Responses
Security
Examples

     200 OK
     Content-Type: application/pdf

Pages paraméter

A lapgyűjtemény a dokumentum lapjainak listája. Minden oldal egymás után jelenik meg a dokumentumban, és tartalmazza a tájolási szöget, amely azt jelzi, hogy az oldal elforgatva van-e, valamint a szélességet és a magasságot (képpontban megadott méretek). A modell kimenetének oldalegységei az alábbi módon lesznek kiszámítva:

Fájlformátum Számított oldalegység Összes oldal
Képek (JPEG/JPG, PNG, BMP, HEIF) Minden kép = 1 oldalegység Összes kép
PDF A PDF minden oldala = 1 oldalegység A PDF összes oldala
ÖSSZETŰZÉS A TIFF minden képe = 1 oldal Összes kép a TIFF-ben
Word (DOCX) Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Legfeljebb 3000 karakter hosszúságú oldalak összesen
Excel (XLSX) Minden munkalap = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Munkalapok összesen
PowerPoint (PPTX) Minden dia = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Összes dia
HTML Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Legfeljebb 3000 karakter hosszúságú oldalak összesen
    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

Lapok használata szövegkinyeréshez

Nagyméretű, többoldalas PDF-dokumentumok esetén a pages lekérdezési paraméterrel konkrét oldalszámokat vagy oldaltartományokat jelölhet a szöveg kinyeréséhez.

Bekezdés kinyerése

A Dokumentumintelligencia olvasási OCR-modellje a gyűjteményben lévő összes azonosított szövegblokkot legfelső szintű objektumként analyzeResultsnyeri ki.paragraphs A gyűjtemény minden bejegyzése egy szövegblokkot jelöl, és tartalmazza a kinyert szöveget éscontent a határoló polygon koordinátákat. Az span információk a dokumentum teljes szövegét tartalmazó legfelső szintű content tulajdonság szövegtöredékére mutatnak.

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Szöveg, sorok és szavak kinyerése

A Read OCR modell kinyeri a nyomtatási és a kézzel írt stílusszöveget.lineswords A modell a koordinátákat és confidence a kinyert szavakat adja polygon ki. A styles gyűjtemény tartalmaz minden kézzel írt stílust a vonalakhoz, ha észlelik, valamint a társított szövegre mutató spanokat. Ez a funkció a támogatott kézzel írt nyelvekre vonatkozik.

A Microsoft Word, Az Excel, a PowerPoint és a HTML esetében a Dokumentumintelligencia-olvasási modell 3.1-s és újabb verziói az összes beágyazott szöveget kinyerik. A szövegek szavakként és bekezdésekként vannak extratolva. A beágyazott képek nem támogatottak.

    # Analyze lines.
    if page.lines:
        for line_idx, line in enumerate(page.lines):
            words = get_words(page, line)
            print(
                f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
            )

            # Analyze words.
            for word in words:
                print(f"......Word '{word.content}' has a confidence of {word.confidence}")

Kézzel írt stílus kinyerése

A válasz magában foglalja annak besorolását, hogy az egyes szövegsorok kézírásstílusúak-e vagy sem, valamint egy megbízhatósági pontszámot. További információ: kézzel írt nyelvi támogatás. Az alábbi példa egy JSON-kódrészletet mutat be.

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Ha engedélyezte a betűtípus-/stílus hozzáadása funkciót, az objektum részeként is megkapja a styles betűtípus/stílus eredményét.

Következő lépések v4.0

Végezze el a dokumentumintelligencia gyorsútmutatóját:

Ismerkedjen meg a REST API-val:

További minták keresése a GitHubon:

Ez a tartalom a következőre vonatkozik:Sakkv3.1 (GA) | Legújabb verzió:lila pipav4.0 (GA) | Korábbi verziók:kék pipav3.0

Ez a tartalom a következőre vonatkozik:Sakkv3.0 (GA) | Legújabb verziók: lila pipav4.0 (GA)lila pipav3.1

Feljegyzés

Ha szöveget szeretne kinyerni külső képekből, például címkékből, utcatáblákból és plakátokból, használja az Azure AI Image Analysis v4.0 Olvasás funkcióját, amely általános (nem dokumentumalapú) képekhez van optimalizálva egy teljesítményalapú szinkron API-val. Ez a funkció megkönnyíti az OCR valós idejű felhasználói élménybe ágyazását.

A Dokumentumintelligencia olvasási optikai karakterfelismerési (OCR) modell nagyobb felbontásban fut, mint az Azure AI Vision Read, és kinyomtatja és kézzel írt szöveget nyer ki PDF-dokumentumokból és beolvasott képekből. Emellett támogatja a Microsoft Word-, Excel-, PowerPoint- és HTML-dokumentumokból történő szövegkigyűjtést is. Észleli a bekezdéseket, szövegsorokat, szavakat, helyeket és nyelveket. Az olvasási modell a dokumentumintelligencia egyéb előre összeállított modelljeinek (például az Elrendezés, Az Általános dokumentum, a Számla, a Nyugta, az Identitás (ID) dokumentum, az Állapotbiztosítási kártya és a W2 alapjául szolgáló OCR-motor az egyéni modelleken kívül.

Mi az OCR a dokumentumokhoz?

A dokumentumok optikai karakterfelismerése (OCR) több fájlformátumban és globális nyelven nagy méretű, szövegigényes dokumentumokhoz van optimalizálva. Olyan funkciókat tartalmaz, mint a dokumentumképek nagyobb felbontású vizsgálata a kisebb és sűrűbb szövegek jobb kezelése érdekében; bekezdésészlelés; és kitölthető űrlapkezelés. Az OCR-képességek olyan speciális forgatókönyveket is tartalmaznak, mint az egykarakterek, valamint a számlákban, nyugtákban és egyéb előre összeállított forgatókönyvekben gyakran használt kulcsmezők pontos kinyerése.

Fejlesztési lehetőségek

A Document Intelligence v3.1 a következő eszközöket, alkalmazásokat és kódtárakat támogatja:

Szolgáltatás Források Modellazonosító
OCR-modell olvasása Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
előre összeállított olvasás

A Document Intelligence 3.0-s verzió a következő eszközöket, alkalmazásokat és kódtárakat támogatja:

Szolgáltatás Források Modellazonosító
OCR-modell olvasása Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
előre összeállított olvasás

Bemeneti követelmények

Támogatott fájlformátumok:

Modell PDF Kép:
JPEG/JPG, PNG, BMP, TIFFHEIF
Microsoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Olvasás
Elrendezés
Általános dokumentum
Előre összeállított
Egyéni kinyerés
Egyéni besorolás
  • A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.

  • PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).

  • A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) szint, az 4 ingyenes (F0) szint esetén pedig MB.

  • A képméreteknek 50 képpont x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.

  • Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.

  • A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül 8 150 pont/hüvelyk (DPI) pontszövegnek felel meg.

  • Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.

    • Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete 50 MB a sablonmodellhez, a neurális modellhez pedig 1 GB.

    • Egyéni besorolási modell betanítása esetén a betanítási adatok 1 teljes mérete GB, legfeljebb 10 000 oldal. 2024-11-30 (GA) esetén a betanítási adatok 2 teljes mérete GB, legfeljebb 10 000 oldal.

Ismerkedés az olvasási modellel

Próbáljon meg szöveget kinyerni űrlapokból és dokumentumokból a Document Intelligence Studióval. A következő eszközökre van szüksége:

  • Azure-előfizetés – ingyenesen létrehozhat egyet.

  • Dokumentumintelligencia-példány az Azure Portalon. A szolgáltatás kipróbálásához használhatja az ingyenes tarifacsomagot (F0). Az erőforrás üzembe helyezése után válassza az Ugrás az erőforráshoz lehetőséget a kulcs és a végpont lekéréséhez.

Képernyőkép a kulcsok és a végpontok helyéről az Azure Portalon.

Feljegyzés

A Document Intelligence Studio jelenleg nem támogatja a Microsoft Word, Excel, PowerPoint és HTML fájlformátumokat.

A Document Intelligence Studióval feldolgozott mintadokumentum

Képernyőkép az olvasási feldolgozásról a Document Intelligence Studióban.

  1. A Document Intelligence Studio kezdőlapján válassza az Olvasás lehetőséget.

  2. Elemezheti a mintadokumentumot, vagy feltöltheti saját fájljait.

  3. Válassza az Elemzés futtatása gombot, és szükség esetén konfigurálja az Elemzési beállításokat:

    Képernyőkép a Document Intelligence Studio Elemzés és elemzés beállításai gombjairól.

Támogatott nyelvek és területi beállítások

A támogatott nyelvek teljes listáját a Nyelvi támogatás – dokumentumelemzési modellek oldalon találja.

Adatkinyerés

Feljegyzés

A Microsoft Word- és HTML-fájlokat a 4.0-s verzió támogatja. A következő képességek jelenleg nem támogatottak:

  • Nincs szög, szélesség/magasság és egység visszaadva az egyes oldalobjektumokkal.
  • Nincs határoló sokszög vagy határolórégió az egyes észlelt objektumokhoz.
  • Nincs visszaadott oldaltartomány (pages) paraméterként.
  • Nincs lines objektum.

Kereshető PDF

A kereshető PDF-funkcióval analóg PDF-fájlokat, például beolvasott PDF-fájlokat konvertálhat beágyazott szöveggel rendelkező PDF-fájllá. A beágyazott szöveg lehetővé teszi a részletes szövegkeresést a PDF kinyert tartalmában az észlelt szöveges entitások képfájlokra való felülírásával.

Fontos

  • Jelenleg csak az olvasási OCR-modell prebuilt-read támogatja a kereshető PDF-funkciót. A funkció használatakor adja meg a modelId következőt prebuilt-read: . Más modelltípusok hibát adnak vissza.
  • A kereshető PDF-fájl a 2024-11-30prebuilt-read modell részét képezi, és nincs hozzáadott költség a kereshető PDF-kimenet létrehozásához.
    • A kereshető PDF jelenleg csak bemenetként támogatja a PDF-fájlokat.

Kereshető PDF használata

A kereshető PDF használatához küldjön egy kérést POST a Analyze művelettel, és adja meg a kimeneti formátumot a következő módon pdf:


    POST /documentModels/prebuilt-read:analyze?output=pdf
    {...}
    202

A művelet befejezésének lekérdezése Analyze . A művelet befejezése után küldjön egy kérést GET a művelet eredményeinek PDF-formátumának lekérésére Analyze .

A sikeres befejezés után a PDF lekérhető és letölthető a következő formátumban application/pdf: . Ez a művelet lehetővé teszi a PDF beágyazott szöveges formájának közvetlen letöltését a Base64 kódolású JSON helyett.


    // Monitor the operation until completion.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}
    200
    {...}

    // Upon successful completion, retrieve the PDF as application/pdf.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
    200 OK
    Content-Type: application/pdf

Oldalak

A lapgyűjtemény a dokumentum lapjainak listája. Minden oldal egymás után jelenik meg a dokumentumban, és tartalmazza a tájolási szöget, amely azt jelzi, hogy az oldal elforgatva van-e, valamint a szélességet és a magasságot (képpontban megadott méretek). A modell kimenetének oldalegységei az alábbi módon lesznek kiszámítva:

Fájlformátum Számított oldalegység Összes oldal
Képek (JPEG/JPG, PNG, BMP, HEIF) Minden kép = 1 oldalegység Összes kép
PDF A PDF minden oldala = 1 oldalegység A PDF összes oldala
ÖSSZETŰZÉS A TIFF minden képe = 1 oldal Összes kép a TIFF-ben
Word (DOCX) Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Legfeljebb 3000 karakter hosszúságú oldalak összesen
Excel (XLSX) Minden munkalap = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Munkalapok összesen
PowerPoint (PPTX) Minden dia = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Összes dia
HTML Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak Legfeljebb 3000 karakter hosszúságú oldalak összesen
    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]
    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(
            f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
        )

Oldalak kijelölése szövegkinyeréshez

Nagyméretű, többoldalas PDF-dokumentumok esetén a pages lekérdezési paraméterrel konkrét oldalszámokat vagy oldaltartományokat jelölhet a szöveg kinyeréséhez.

Bekezdések

A Dokumentumintelligencia olvasási OCR-modellje a gyűjteményben lévő összes azonosított szövegblokkot legfelső szintű objektumként analyzeResultsnyeri ki.paragraphs A gyűjtemény minden bejegyzése egy szövegblokkot jelöl, és tartalmazza a kinyert szöveget éscontent a határoló polygon koordinátákat. Az span információk a dokumentum teljes szövegét tartalmazó legfelső szintű content tulajdonság szövegtöredékére mutatnak.

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Szöveg, sorok és szavak

A Read OCR modell kinyeri a nyomtatási és a kézzel írt stílusszöveget.lineswords A modell a koordinátákat és confidence a kinyert szavakat adja polygon ki. A styles gyűjtemény tartalmaz minden kézzel írt stílust a vonalakhoz, ha észlelik, valamint a társított szövegre mutató spanokat. Ez a funkció a támogatott kézzel írt nyelvekre vonatkozik.

A Microsoft Word, Az Excel, a PowerPoint és a HTML esetében a Dokumentumintelligencia-olvasási modell 3.1-s és újabb verziói az összes beágyazott szöveget kinyerik. A szövegek szavakként és bekezdésekként vannak extratolva. A beágyazott képek nem támogatottak.


    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]
    # Analyze lines.
    for line_idx, line in enumerate(page.lines):
        words = line.get_words()
        print(
            f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
        )

        # Analyze words.
        for word in words:
            print(
                f"......Word '{word.content}' has a confidence of {word.confidence}"
            )

Kézzel írt stílus szövegsorokhoz

A válasz magában foglalja annak besorolását, hogy az egyes szövegsorok kézírásstílusúak-e vagy sem, valamint egy megbízhatósági pontszámot. További információ: kézzel írt nyelvi támogatás. Az alábbi példa egy JSON-kódrészletet mutat be.

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Ha engedélyezte a betűtípus-/stílus hozzáadása funkciót, az objektum részeként is megkapja a styles betűtípus/stílus eredményét.

Következő lépések

Végezze el a dokumentumintelligencia gyorsútmutatóját:

Ismerkedjen meg a REST API-val:

További minták keresése a GitHubon: