Bagikan melalui


Model baca Kecerdasan Dokumen

Konten ini berlaku untuk:tanda centangv4.0 (GA) | Versi sebelumnya: tanda centang biruv3.1 (GA)tanda centang biruv3.0 (GA)

Catatan

Untuk mengekstrak teks dari gambar eksternal seperti label, tanda jalan, dan poster, gunakan fitur Baca Azure AI Image Analysis v4.0 yang dioptimalkan untuk gambar umum (bukan dokumen) dengan API sinkron yang ditingkatkan performanya. Kemampuan ini memudahkan penyematan OCR dalam skenario pengalaman pengguna real time.

Model Pengenalan Karakter Optik Baca Kecerdasan Dokumen (OCR) berjalan pada resolusi yang lebih tinggi daripada Azure AI Vision Read dan mengekstrak teks cetak dan tulisan tangan dari dokumen PDF dan gambar yang dipindai. Ini juga termasuk dukungan untuk mengekstrak teks dari dokumen Microsoft Word, Excel, PowerPoint, dan HTML. Ini mendeteksi paragraf, baris teks, kata, lokasi, dan bahasa. Model Baca adalah mesin OCR yang mendasari untuk model bawaan Inteligensi Dokumen lainnya seperti dokumen Tata Letak, Dokumen Umum, Faktur, Tanda Terima, Identitas (ID), Kartu asuransi kesehatan, W2 selain model kustom.

Apa itu Pengenalan Karakter Optik?

Pengenalan Karakter Optik (OCR) untuk dokumen dioptimalkan untuk dokumen teks-berat besar dalam beberapa format file dan bahasa global. Ini termasuk fitur seperti pemindaian gambar dokumen resolusi lebih tinggi untuk penanganan teks yang lebih kecil dan padat; deteksi paragraf; dan manajemen formulir yang dapat diisi. Kemampuan OCR juga mencakup skenario lanjutan seperti kotak karakter tunggal dan ekstraksi bidang kunci yang akurat yang umumnya ditemukan dalam faktur, tanda terima, dan skenario bawaan lainnya.

Opsi pengembangan (v4)

Kecerdasan Dokumen v4.0: 2024-11-30 (GA) mendukung alat, aplikasi, dan pustaka berikut:

Fitur Sumber ID Model
Membaca model OCR Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
baca bawaan

Persyaratan input (v4)

Format file yang didukung:

Model PDF Gambar:
JPEG/JPG, , BMPPNG, TIFF, ,HEIF
Microsoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Read
Tata letak
Dokumen Umum
Bawaan
Ekstraksi kustom
Klasifikasi kustom
  • Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.

  • Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).

  • Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).

  • Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.

  • Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.

  • Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan tentang 8 teks titik pada 150 titik per inci (DPI).

  • Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.

    • Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1 GB untuk model neural.

    • Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah 1 GB dengan maksimum 10.000 halaman. Untuk 2024-11-30 (GA), ukuran total data pelatihan adalah 2 GB dengan maksimum 10.000 halaman.

Mulai menggunakan model Baca (v4)

Coba ekstrak teks dari formulir dan dokumen menggunakan Studio Kecerdasan Dokumen. Anda memerlukan aset berikut:

  • Langganan Azure—Anda dapat membuatnya secara gratis.

  • Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (F0) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.

    Cuplikan layar di titik akhir di portal Azure.

Catatan

Saat ini, Document Intelligence Studio tidak mendukung format file Microsoft Word, Excel, PowerPoint, dan HTML.

Contoh dokumen yang diproses dengan Document Intelligence Studio

Cuplikan layar Pemrosesan baca di Studio Kecerdasan Dokumen.

  1. Pada beranda Studio Kecerdasan Dokumen, pilih Baca.

  2. Anda dapat menganalisis contoh dokumen atau mengunggah file Anda sendiri.

  3. Pilih tombol Jalankan analisis dan, jika perlu, konfigurasikan opsi Analisis:

    Cuplikan layar tombol Jalankan analisis dan Analisis opsi di Studio Kecerdasan Dokumen.

    Coba Studio Kecerdasan Dokumen.

Bahasa dan lokal yang didukung (v4)

Lihat halaman Dukungan Bahasa—model analisis dokumen untuk daftar lengkap bahasa yang didukung.

Ekstraksi data (v4)

Catatan

File Microsoft Word dan HTML didukung di v4.0. Kemampuan berikut saat ini tidak didukung:

  • Tidak ada sudut, lebar/tinggi, dan unit yang dikembalikan dengan setiap objek halaman.
  • Tidak ada poligon pembatas atau wilayah pembatas untuk setiap objek yang terdeteksi.
  • Tidak ada rentang halaman (pages) sebagai parameter yang dikembalikan.
  • Tidak ada lines objek.

PDF yang dapat dicari

Kemampuan PDF yang dapat dicari memungkinkan Anda mengonversi PDF analog, seperti file PDF gambar yang dipindai, ke PDF dengan teks yang disematkan. Teks yang disematkan memungkinkan pencarian teks mendalam dalam konten PDF yang diekstrak dengan melapisi entitas teks yang terdeteksi di atas file gambar.

Penting

  • Saat ini, hanya model prebuilt-read Read OCR yang mendukung kemampuan PDF yang dapat dicari. Saat menggunakan fitur ini, tentukan modelId sebagai prebuilt-read. Jenis model lain mengembalikan kesalahan untuk versi pratinjau ini.
  • PDF yang dapat dicari disertakan dengan 2024-11-30 model GA prebuilt-read tanpa biaya tambahan untuk menghasilkan output PDF yang dapat dicari.

Menggunakan PDF yang dapat dicari

Untuk menggunakan PDF yang dapat dicari, buat POST permintaan menggunakan Analyze operasi dan tentukan format output sebagai pdf:


     POST {endpoint}/documentintelligence/documentModels/prebuilt-read:analyze?_overload=analyzeDocument&api-version=2024-11-30&output=pdf
     {...}
     202

Polling untuk penyelesaian Analyze operasi. Setelah operasi selesai, terbitkan GET permintaan untuk mengambil format PDF dari hasil Analyze operasi.

Setelah berhasil diselesaikan, PDF dapat diambil dan diunduh sebagai application/pdf. Operasi ini memungkinkan pengunduhan langsung bentuk teks PDF yang disematkan alih-alih JSON yang dikodekan Base64.


     // Monitor the operation until completion.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}
     200
     {...}

     // Upon successful completion, retrieve the PDF as application/pdf.
     GET {endpoint}/documentintelligence/documentModels/prebuilt-read/analyzeResults/{resultId}/pdf?api-version=2024-11-30
URI Parameters
Name    In    Required    Type    Description
endpoint    path    True    
string

uri    
The Document Intelligence service endpoint.

modelId    path    True    
string

Unique document model name.

Regex pattern: ^[a-zA-Z0-9][a-zA-Z0-9._~-]{1,63}$

resultId    path    True    
string

uuid    
Analyze operation result ID.

api-version    query    True    
string

The API version to use for this operation.

Responses
Name    Type    Description
200 OK    
file

The request has succeeded.

Media Types: "application/pdf", "application/json"

Other Status Codes    
DocumentIntelligenceErrorResponse

An unexpected error response.

Media Types: "application/pdf", "application/json"

Security
Ocp-Apim-Subscription-Key
Type: apiKey
In: header

OAuth2Auth
Type: oauth2
Flow: accessCode
Authorization URL: https://login.microsoftonline.com/common/oauth2/authorize
Token URL: https://login.microsoftonline.com/common/oauth2/token

Scopes
Name    Description
https://cognitiveservices.azure.com/.default    
Examples
Get Analyze Document Result PDF
Sample request
HTTP
HTTP

Copy
GET https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-invoice/analyzeResults/3b31320d-8bab-4f88-b19c-2322a7f11034/pdf?api-version=2024-11-30
Sample response
Status code:
200
JSON

Copy
"{pdfBinary}"
Definitions
Name    Description
DocumentIntelligenceError    
The error object.

DocumentIntelligenceErrorResponse    
Error response object.

DocumentIntelligenceInnerError    
An object containing more specific information about the error.

DocumentIntelligenceError
The error object.

Name    Type    Description
code    
string

One of a server-defined set of error codes.

details    
DocumentIntelligenceError[]

An array of details about specific errors that led to this reported error.

innererror    
DocumentIntelligenceInnerError

An object containing more specific information than the current object about the error.

message    
string

A human-readable representation of the error.

target    
string

The target of the error.

DocumentIntelligenceErrorResponse
Error response object.

Name    Type    Description
error    
DocumentIntelligenceError

Error info.

DocumentIntelligenceInnerError
An object containing more specific information about the error.

Name    Type    Description
code    
string

One of a server-defined set of error codes.

innererror    
DocumentIntelligenceInnerError

Inner error.

message    
string

A human-readable representation of the error.

In this article
URI Parameters
Responses
Security
Examples

     200 OK
     Content-Type: application/pdf

Parameter halaman

Kumpulan halaman adalah daftar halaman dalam dokumen. Setiap halaman diwakili secara berurutan dalam dokumen dan menyertakan sudut orientasi yang menunjukkan apakah halaman diputar dan lebar dan tinggi (dimensi dalam piksel). Unit halaman dalam output model dihitung seperti yang ditunjukkan:

Format file Unit halaman terkomputasi Total halaman
Gambar (JPEG/JPG, PNG, BMP, HEIF) Setiap gambar = 1 unit halaman Total gambar
PDF Setiap halaman dalam PDF = 1 unit halaman Total halaman dalam PDF
TIFF Setiap gambar dalam Format File Gambar Bertag = 1 unit halaman Total gambar di TIFF
Word (DOCX) Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total halaman hingga 3.000 karakter masing-masing
Excel (XLSX) Setiap lembar kerja = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total lembar kerja
PowerPoint (PPTX) Setiap slide = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total slide
HTML Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total halaman hingga 3.000 karakter masing-masing
    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

Menggunakan halaman untuk ekstraksi teks

Untuk dokumen PDF yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk mengekstrak teks.

Ekstraksi paragraf

Model Baca OCR dalam Kecerdasan Dokumen mengekstrak semua blok teks yang diidentifikasi dalam paragraphs koleksi sebagai objek tingkat atas di bawah analyzeResults. Setiap entri dalam koleksi ini mewakili blok teks dan menyertakan teks yang diekstrak sebagaicontent dan koordinat pembatas polygon . Informasi span menunjuk ke fragmen teks dalam properti tingkat content atas yang berisi teks lengkap dari dokumen.

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Ekstraksi teks, baris, dan kata

Model Read OCR mengekstrak teks gaya cetak dan tulisan tangan sebagai lines dan words. Model mengeluarkan koordinat polygon dan confidence untuk kata-kata yang diekstraksi. Koleksi styles mencakup gaya tulisan tangan apa pun untuk garis jika terdeteksi bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa komputer tulisan tangan yang didukung.

Untuk Microsoft Word, Excel, PowerPoint, dan HTML, model Baca Inteligensi Dokumen v3.1 dan versi yang lebih baru mengekstrak semua teks yang disematkan apa adanya. Teks dilebarkan sebagai kata dan paragraf. Gambar yang disematkan tidak didukung.

    # Analyze lines.
    if page.lines:
        for line_idx, line in enumerate(page.lines):
            words = get_words(page, line)
            print(
                f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
            )

            # Analyze words.
            for word in words:
                print(f"......Word '{word.content}' has a confidence of {word.confidence}")

Ekstraksi gaya tulisan tangan

Respons meliputi pengklasifikasian apakah setiap baris teks memiliki gaya tulisan tangan atau tidak, bersama dengan skor keyakinan. Untuk informasi selengkapnya, lihatdukungan bahasa tulisan tangan. Contoh berikut menunjukkan contoh cuplikan JSON.

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Jika Anda mengaktifkan kemampuan addon font/style, Anda juga mendapatkan hasil font/gaya sebagai bagian styles dari objek.

Langkah berikutnya v4.0

Selesaikan mulai cepat Inteligensi Dokumen:

Jelajahi REST API kami:

Temukan sampel lainnya di GitHub:

Konten ini berlaku untuk:tanda centangv3.1 (GA) | Versi terbaru:tanda centang ungu v4.0 (GA) | Versi sebelumnya:tanda centang biruv3.0

Konten ini berlaku untuk:tanda centangv3.0 (GA) | Versi terbaru: tanda centang unguv4.0 (GA)tanda centang unguv3.1

Catatan

Untuk mengekstrak teks dari gambar eksternal seperti label, tanda jalan, dan poster, gunakan fitur Baca Azure AI Image Analysis v4.0 yang dioptimalkan untuk gambar umum (bukan dokumen) dengan API sinkron yang ditingkatkan performanya. Kemampuan ini memudahkan penyematan OCR dalam skenario pengalaman pengguna real time.

Model Pengenalan Karakter Optik Baca Kecerdasan Dokumen (OCR) berjalan pada resolusi yang lebih tinggi daripada Azure AI Vision Read dan mengekstrak teks cetak dan tulisan tangan dari dokumen PDF dan gambar yang dipindai. Ini juga termasuk dukungan untuk mengekstrak teks dari dokumen Microsoft Word, Excel, PowerPoint, dan HTML. Ini mendeteksi paragraf, baris teks, kata, lokasi, dan bahasa. Model Baca adalah mesin OCR yang mendasari untuk model bawaan Inteligensi Dokumen lainnya seperti dokumen Tata Letak, Dokumen Umum, Faktur, Tanda Terima, Identitas (ID), Kartu asuransi kesehatan, W2 selain model kustom.

Apa itu OCR untuk dokumen?

Pengenalan Karakter Optik (OCR) untuk dokumen dioptimalkan untuk dokumen teks-berat besar dalam beberapa format file dan bahasa global. Ini termasuk fitur seperti pemindaian gambar dokumen resolusi lebih tinggi untuk penanganan teks yang lebih kecil dan padat; deteksi paragraf; dan manajemen formulir yang dapat diisi. Kemampuan OCR juga mencakup skenario lanjutan seperti kotak karakter tunggal dan ekstraksi bidang kunci yang akurat yang umumnya ditemukan dalam faktur, tanda terima, dan skenario bawaan lainnya.

Opsi pengembangan

Kecerdasan Dokumen v3.1 mendukung alat, aplikasi, dan pustaka berikut:

Fitur Sumber ID Model
Membaca model OCR Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
baca bawaan

Kecerdasan Dokumen v3.0 mendukung alat, aplikasi, dan pustaka berikut:

Fitur Sumber ID Model
Membaca model OCR Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
baca bawaan

Persyaratan input

Format file yang didukung:

Model PDF Gambar:
JPEG/JPG, , BMPPNG, TIFF, ,HEIF
Microsoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Read
Tata letak
Dokumen Umum
Bawaan
Ekstraksi kustom
Klasifikasi kustom
  • Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.

  • Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).

  • Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).

  • Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.

  • Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.

  • Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan tentang 8 teks titik pada 150 titik per inci (DPI).

  • Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.

    • Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1 GB untuk model neural.

    • Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah 1 GB dengan maksimum 10.000 halaman. Untuk 2024-11-30 (GA), ukuran total data pelatihan adalah 2 GB dengan maksimum 10.000 halaman.

Mulai menggunakan model Baca

Coba ekstrak teks dari formulir dan dokumen menggunakan Studio Kecerdasan Dokumen. Anda memerlukan aset berikut:

  • Langganan Azure—Anda dapat membuatnya secara gratis.

  • Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (F0) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.

Cuplikan layar di titik akhir di portal Azure.

Catatan

Saat ini, Document Intelligence Studio tidak mendukung format file Microsoft Word, Excel, PowerPoint, dan HTML.

Contoh dokumen yang diproses dengan Document Intelligence Studio

Cuplikan layar Pemrosesan baca di Studio Kecerdasan Dokumen.

  1. Pada beranda Studio Kecerdasan Dokumen, pilih Baca.

  2. Anda dapat menganalisis contoh dokumen atau mengunggah file Anda sendiri.

  3. Pilih tombol Jalankan analisis dan, jika perlu, konfigurasikan opsi Analisis:

    Cuplikan layar tombol Jalankan analisis dan Analisis opsi di Studio Kecerdasan Dokumen.

    Coba Studio Kecerdasan Dokumen.

Bahasa dan lokal yang didukung

Lihat halaman Dukungan Bahasa—model analisis dokumen untuk daftar lengkap bahasa yang didukung.

Ekstraksi data

Catatan

File Microsoft Word dan HTML didukung di v4.0. Kemampuan berikut saat ini tidak didukung:

  • Tidak ada sudut, lebar/tinggi, dan unit yang dikembalikan dengan setiap objek halaman.
  • Tidak ada poligon pembatas atau wilayah pembatas untuk setiap objek yang terdeteksi.
  • Tidak ada rentang halaman (pages) sebagai parameter yang dikembalikan.
  • Tidak ada lines objek.

PDF yang dapat dicari

Kemampuan PDF yang dapat dicari memungkinkan Anda mengonversi PDF analog, seperti file PDF gambar yang dipindai, ke PDF dengan teks yang disematkan. Teks yang disematkan memungkinkan pencarian teks mendalam dalam konten PDF yang diekstrak dengan melapisi entitas teks yang terdeteksi di atas file gambar.

Penting

  • Saat ini, hanya model prebuilt-read Read OCR yang mendukung kemampuan PDF yang dapat dicari. Saat menggunakan fitur ini, tentukan modelId sebagai prebuilt-read. Jenis model lain mengembalikan kesalahan.
  • PDF yang dapat dicari disertakan dengan 2024-11-30prebuilt-read model tanpa biaya tambahan untuk menghasilkan output PDF yang dapat dicari.
    • PDF yang dapat dicari saat ini hanya mendukung file PDF sebagai input.

Gunakan PDF yang dapat dicari

Untuk menggunakan PDF yang dapat dicari, buat POST permintaan menggunakan Analyze operasi dan tentukan format output sebagai pdf:


    POST /documentModels/prebuilt-read:analyze?output=pdf
    {...}
    202

Polling untuk penyelesaian Analyze operasi. Setelah operasi selesai, terbitkan GET permintaan untuk mengambil format PDF dari hasil Analyze operasi.

Setelah berhasil diselesaikan, PDF dapat diambil dan diunduh sebagai application/pdf. Operasi ini memungkinkan pengunduhan langsung bentuk teks PDF yang disematkan alih-alih JSON yang dikodekan Base64.


    // Monitor the operation until completion.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}
    200
    {...}

    // Upon successful completion, retrieve the PDF as application/pdf.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
    200 OK
    Content-Type: application/pdf

Halaman

Kumpulan halaman adalah daftar halaman dalam dokumen. Setiap halaman diwakili secara berurutan dalam dokumen dan menyertakan sudut orientasi yang menunjukkan apakah halaman diputar dan lebar dan tinggi (dimensi dalam piksel). Unit halaman dalam output model dihitung seperti yang ditunjukkan:

Format file Unit halaman terkomputasi Total halaman
Gambar (JPEG/JPG, PNG, BMP, HEIF) Setiap gambar = 1 unit halaman Total gambar
PDF Setiap halaman dalam PDF = 1 unit halaman Total halaman dalam PDF
TIFF Setiap gambar dalam Format File Gambar Bertag = 1 unit halaman Total gambar di TIFF
Word (DOCX) Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total halaman hingga 3.000 karakter masing-masing
Excel (XLSX) Setiap lembar kerja = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total lembar kerja
PowerPoint (PPTX) Setiap slide = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total slide
HTML Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total halaman hingga 3.000 karakter masing-masing
    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]
    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(
            f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
        )

Pilih halaman untuk ekstraksi teks

Untuk dokumen PDF yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk mengekstrak teks.

Paragraf

Model Baca OCR dalam Kecerdasan Dokumen mengekstrak semua blok teks yang diidentifikasi dalam paragraphs koleksi sebagai objek tingkat atas di bawah analyzeResults. Setiap entri dalam koleksi ini mewakili blok teks dan menyertakan teks yang diekstrak sebagaicontent dan koordinat pembatas polygon . Informasi span menunjuk ke fragmen teks dalam properti tingkat content atas yang berisi teks lengkap dari dokumen.

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Teks, baris, dan kata

Model Read OCR mengekstrak teks gaya cetak dan tulisan tangan sebagai lines dan words. Model mengeluarkan koordinat polygon dan confidence untuk kata-kata yang diekstraksi. Koleksi styles mencakup gaya tulisan tangan apa pun untuk garis jika terdeteksi bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa komputer tulisan tangan yang didukung.

Untuk Microsoft Word, Excel, PowerPoint, dan HTML, model Baca Inteligensi Dokumen v3.1 dan versi yang lebih baru mengekstrak semua teks yang disematkan apa adanya. Teks dilebarkan sebagai kata dan paragraf. Gambar yang disematkan tidak didukung.


    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]
    # Analyze lines.
    for line_idx, line in enumerate(page.lines):
        words = line.get_words()
        print(
            f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
        )

        # Analyze words.
        for word in words:
            print(
                f"......Word '{word.content}' has a confidence of {word.confidence}"
            )

Gaya tulisan tangan untuk baris teks

Respons meliputi pengklasifikasian apakah setiap baris teks memiliki gaya tulisan tangan atau tidak, bersama dengan skor keyakinan. Untuk informasi selengkapnya, lihatdukungan bahasa tulisan tangan. Contoh berikut menunjukkan contoh cuplikan JSON.

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Jika Anda mengaktifkan kemampuan addon font/style, Anda juga mendapatkan hasil font/gaya sebagai bagian styles dari objek.

Langkah berikutnya

Selesaikan mulai cepat Inteligensi Dokumen:

Jelajahi REST API kami:

Temukan sampel lainnya di GitHub: