Model baca Kecerdasan Dokumen
Konten ini berlaku untuk:v4.0 (GA) | Versi sebelumnya:
v3.1 (GA)
v3.0 (GA)
Catatan
Untuk mengekstrak teks dari gambar eksternal seperti label, tanda jalan, dan poster, gunakan fitur Baca Azure AI Image Analysis v4.0 yang dioptimalkan untuk gambar umum (bukan dokumen) dengan API sinkron yang ditingkatkan performanya. Kemampuan ini memudahkan penyematan OCR dalam skenario pengalaman pengguna real time.
Model Pengenalan Karakter Optik Baca Kecerdasan Dokumen (OCR) berjalan pada resolusi yang lebih tinggi daripada Azure AI Vision Read dan mengekstrak teks cetak dan tulisan tangan dari dokumen PDF dan gambar yang dipindai. Ini juga termasuk dukungan untuk mengekstrak teks dari dokumen Microsoft Word, Excel, PowerPoint, dan HTML. Ini mendeteksi paragraf, baris teks, kata, lokasi, dan bahasa. Model Baca adalah mesin OCR yang mendasari untuk model bawaan Inteligensi Dokumen lainnya seperti dokumen Tata Letak, Dokumen Umum, Faktur, Tanda Terima, Identitas (ID), Kartu asuransi kesehatan, W2 selain model kustom.
Apa itu Pengenalan Karakter Optik?
Pengenalan Karakter Optik (OCR) untuk dokumen dioptimalkan untuk dokumen teks-berat besar dalam beberapa format file dan bahasa global. Ini termasuk fitur seperti pemindaian gambar dokumen resolusi lebih tinggi untuk penanganan teks yang lebih kecil dan padat; deteksi paragraf; dan manajemen formulir yang dapat diisi. Kemampuan OCR juga mencakup skenario lanjutan seperti kotak karakter tunggal dan ekstraksi bidang kunci yang akurat yang umumnya ditemukan dalam faktur, tanda terima, dan skenario bawaan lainnya.
Opsi pengembangan (v4)
Kecerdasan Dokumen v4.0: 2024-11-30 (GA) mendukung alat, aplikasi, dan pustaka berikut:
Fitur | Sumber | ID Model |
---|---|---|
Membaca model OCR | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
baca bawaan |
Persyaratan input (v4)
Format file yang didukung:
Model | Gambar: JPEG/JPG , , BMP PNG , TIFF , ,HEIF |
Microsoft Office: Word ( DOCX ), Excel (XLSX ), PowerPoint (PPTX ), HTML |
|
---|---|---|---|
Read | ✔ | ✔ | ✔ |
Tata letak | ✔ | ✔ | ✔ |
Dokumen Umum | ✔ | ✔ | |
Bawaan | ✔ | ✔ | |
Ekstraksi kustom | ✔ | ✔ | |
Klasifikasi kustom | ✔ | ✔ | ✔ |
Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.
Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).
Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan
4
MB secara gratis (F0).Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.
Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.
Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan tentang
8
teks titik pada 150 titik per inci (DPI).Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.
Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan
1
GB untuk model neural.Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah
1
GB dengan maksimum 10.000 halaman. Untuk 2024-11-30 (GA), ukuran total data pelatihan adalah2
GB dengan maksimum 10.000 halaman.
Mulai menggunakan model Baca (v4)
Coba ekstrak teks dari formulir dan dokumen menggunakan Studio Kecerdasan Dokumen. Anda memerlukan aset berikut:
Langganan Azure—Anda dapat membuatnya secara gratis.
Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (
F0
) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.
Catatan
Saat ini, Document Intelligence Studio tidak mendukung format file Microsoft Word, Excel, PowerPoint, dan HTML.
Contoh dokumen yang diproses dengan Document Intelligence Studio
Anda dapat menganalisis contoh dokumen atau mengunggah file Anda sendiri.
Pilih tombol Jalankan analisis dan, jika perlu, konfigurasikan opsi Analisis:
Coba Studio Kecerdasan Dokumen.
Bahasa dan lokal yang didukung (v4)
Lihat halaman Dukungan Bahasa—model analisis dokumen untuk daftar lengkap bahasa yang didukung.
Ekstraksi data (v4)
Catatan
File Microsoft Word dan HTML didukung di v4.0. Kemampuan berikut saat ini tidak didukung:
- Tidak ada sudut, lebar/tinggi, dan unit yang dikembalikan dengan setiap objek halaman.
- Tidak ada poligon pembatas atau wilayah pembatas untuk setiap objek yang terdeteksi.
- Tidak ada rentang halaman (
pages
) sebagai parameter yang dikembalikan. - Tidak ada
lines
objek.
PDF yang dapat dicari
Kemampuan PDF yang dapat dicari memungkinkan Anda mengonversi PDF analog, seperti file PDF gambar yang dipindai, ke PDF dengan teks yang disematkan. Teks yang disematkan memungkinkan pencarian teks mendalam dalam konten PDF yang diekstrak dengan melapisi entitas teks yang terdeteksi di atas file gambar.
Penting
- Saat ini, hanya model
prebuilt-read
Read OCR yang mendukung kemampuan PDF yang dapat dicari. Saat menggunakan fitur ini, tentukanmodelId
sebagaiprebuilt-read
. Jenis model lain mengembalikan kesalahan untuk versi pratinjau ini. - PDF yang dapat dicari disertakan dengan
2024-11-30
model GAprebuilt-read
tanpa biaya tambahan untuk menghasilkan output PDF yang dapat dicari.
Menggunakan PDF yang dapat dicari
Untuk menggunakan PDF yang dapat dicari, buat POST
permintaan menggunakan Analyze
operasi dan tentukan format output sebagai pdf
:
POST {endpoint}/documentintelligence/documentModels/prebuilt-read:analyze?_overload=analyzeDocument&api-version=2024-11-30&output=pdf
{...}
202
Polling untuk penyelesaian Analyze
operasi. Setelah operasi selesai, terbitkan GET
permintaan untuk mengambil format PDF dari hasil Analyze
operasi.
Setelah berhasil diselesaikan, PDF dapat diambil dan diunduh sebagai application/pdf
. Operasi ini memungkinkan pengunduhan langsung bentuk teks PDF yang disematkan alih-alih JSON yang dikodekan Base64.
// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}
// Upon successful completion, retrieve the PDF as application/pdf.
GET {endpoint}/documentintelligence/documentModels/prebuilt-read/analyzeResults/{resultId}/pdf?api-version=2024-11-30
URI Parameters
Name In Required Type Description
endpoint path True
string
uri
The Document Intelligence service endpoint.
modelId path True
string
Unique document model name.
Regex pattern: ^[a-zA-Z0-9][a-zA-Z0-9._~-]{1,63}$
resultId path True
string
uuid
Analyze operation result ID.
api-version query True
string
The API version to use for this operation.
Responses
Name Type Description
200 OK
file
The request has succeeded.
Media Types: "application/pdf", "application/json"
Other Status Codes
DocumentIntelligenceErrorResponse
An unexpected error response.
Media Types: "application/pdf", "application/json"
Security
Ocp-Apim-Subscription-Key
Type: apiKey
In: header
OAuth2Auth
Type: oauth2
Flow: accessCode
Authorization URL: https://login.microsoftonline.com/common/oauth2/authorize
Token URL: https://login.microsoftonline.com/common/oauth2/token
Scopes
Name Description
https://cognitiveservices.azure.com/.default
Examples
Get Analyze Document Result PDF
Sample request
HTTP
HTTP
Copy
GET https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-invoice/analyzeResults/3b31320d-8bab-4f88-b19c-2322a7f11034/pdf?api-version=2024-11-30
Sample response
Status code:
200
JSON
Copy
"{pdfBinary}"
Definitions
Name Description
DocumentIntelligenceError
The error object.
DocumentIntelligenceErrorResponse
Error response object.
DocumentIntelligenceInnerError
An object containing more specific information about the error.
DocumentIntelligenceError
The error object.
Name Type Description
code
string
One of a server-defined set of error codes.
details
DocumentIntelligenceError[]
An array of details about specific errors that led to this reported error.
innererror
DocumentIntelligenceInnerError
An object containing more specific information than the current object about the error.
message
string
A human-readable representation of the error.
target
string
The target of the error.
DocumentIntelligenceErrorResponse
Error response object.
Name Type Description
error
DocumentIntelligenceError
Error info.
DocumentIntelligenceInnerError
An object containing more specific information about the error.
Name Type Description
code
string
One of a server-defined set of error codes.
innererror
DocumentIntelligenceInnerError
Inner error.
message
string
A human-readable representation of the error.
In this article
URI Parameters
Responses
Security
Examples
200 OK
Content-Type: application/pdf
Parameter halaman
Kumpulan halaman adalah daftar halaman dalam dokumen. Setiap halaman diwakili secara berurutan dalam dokumen dan menyertakan sudut orientasi yang menunjukkan apakah halaman diputar dan lebar dan tinggi (dimensi dalam piksel). Unit halaman dalam output model dihitung seperti yang ditunjukkan:
Format file | Unit halaman terkomputasi | Total halaman |
---|---|---|
Gambar (JPEG/JPG, PNG, BMP, HEIF) | Setiap gambar = 1 unit halaman | Total gambar |
Setiap halaman dalam PDF = 1 unit halaman | Total halaman dalam PDF | |
TIFF | Setiap gambar dalam Format File Gambar Bertag = 1 unit halaman | Total gambar di TIFF |
Word (DOCX) | Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total halaman hingga 3.000 karakter masing-masing |
Excel (XLSX) | Setiap lembar kerja = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total lembar kerja |
PowerPoint (PPTX) | Setiap slide = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total slide |
HTML | Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total halaman hingga 3.000 karakter masing-masing |
# Analyze pages.
for page in result.pages:
print(f"----Analyzing document from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")
Menggunakan halaman untuk ekstraksi teks
Untuk dokumen PDF yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages
untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk mengekstrak teks.
Ekstraksi paragraf
Model Baca OCR dalam Kecerdasan Dokumen mengekstrak semua blok teks yang diidentifikasi dalam paragraphs
koleksi sebagai objek tingkat atas di bawah analyzeResults
. Setiap entri dalam koleksi ini mewakili blok teks dan menyertakan teks yang diekstrak sebagaicontent
dan koordinat pembatas polygon
. Informasi span
menunjuk ke fragmen teks dalam properti tingkat content
atas yang berisi teks lengkap dari dokumen.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Ekstraksi teks, baris, dan kata
Model Read OCR mengekstrak teks gaya cetak dan tulisan tangan sebagai lines
dan words
. Model mengeluarkan koordinat polygon
dan confidence
untuk kata-kata yang diekstraksi. Koleksi styles
mencakup gaya tulisan tangan apa pun untuk garis jika terdeteksi bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa komputer tulisan tangan yang didukung.
Untuk Microsoft Word, Excel, PowerPoint, dan HTML, model Baca Inteligensi Dokumen v3.1 dan versi yang lebih baru mengekstrak semua teks yang disematkan apa adanya. Teks dilebarkan sebagai kata dan paragraf. Gambar yang disematkan tidak didukung.
# Analyze lines.
if page.lines:
for line_idx, line in enumerate(page.lines):
words = get_words(page, line)
print(
f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
)
# Analyze words.
for word in words:
print(f"......Word '{word.content}' has a confidence of {word.confidence}")
Ekstraksi gaya tulisan tangan
Respons meliputi pengklasifikasian apakah setiap baris teks memiliki gaya tulisan tangan atau tidak, bersama dengan skor keyakinan. Untuk informasi selengkapnya, lihatdukungan bahasa tulisan tangan. Contoh berikut menunjukkan contoh cuplikan JSON.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Jika Anda mengaktifkan kemampuan addon font/style, Anda juga mendapatkan hasil font/gaya sebagai bagian styles
dari objek.
Langkah berikutnya v4.0
Selesaikan mulai cepat Inteligensi Dokumen:
Jelajahi REST API kami:
Temukan sampel lainnya di GitHub:
Catatan
Untuk mengekstrak teks dari gambar eksternal seperti label, tanda jalan, dan poster, gunakan fitur Baca Azure AI Image Analysis v4.0 yang dioptimalkan untuk gambar umum (bukan dokumen) dengan API sinkron yang ditingkatkan performanya. Kemampuan ini memudahkan penyematan OCR dalam skenario pengalaman pengguna real time.
Model Pengenalan Karakter Optik Baca Kecerdasan Dokumen (OCR) berjalan pada resolusi yang lebih tinggi daripada Azure AI Vision Read dan mengekstrak teks cetak dan tulisan tangan dari dokumen PDF dan gambar yang dipindai. Ini juga termasuk dukungan untuk mengekstrak teks dari dokumen Microsoft Word, Excel, PowerPoint, dan HTML. Ini mendeteksi paragraf, baris teks, kata, lokasi, dan bahasa. Model Baca adalah mesin OCR yang mendasari untuk model bawaan Inteligensi Dokumen lainnya seperti dokumen Tata Letak, Dokumen Umum, Faktur, Tanda Terima, Identitas (ID), Kartu asuransi kesehatan, W2 selain model kustom.
Apa itu OCR untuk dokumen?
Pengenalan Karakter Optik (OCR) untuk dokumen dioptimalkan untuk dokumen teks-berat besar dalam beberapa format file dan bahasa global. Ini termasuk fitur seperti pemindaian gambar dokumen resolusi lebih tinggi untuk penanganan teks yang lebih kecil dan padat; deteksi paragraf; dan manajemen formulir yang dapat diisi. Kemampuan OCR juga mencakup skenario lanjutan seperti kotak karakter tunggal dan ekstraksi bidang kunci yang akurat yang umumnya ditemukan dalam faktur, tanda terima, dan skenario bawaan lainnya.
Opsi pengembangan
Kecerdasan Dokumen v3.1 mendukung alat, aplikasi, dan pustaka berikut:
Fitur | Sumber | ID Model |
---|---|---|
Membaca model OCR | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
baca bawaan |
Kecerdasan Dokumen v3.0 mendukung alat, aplikasi, dan pustaka berikut:
Fitur | Sumber | ID Model |
---|---|---|
Membaca model OCR | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
baca bawaan |
Persyaratan input
Format file yang didukung:
Model | Gambar: JPEG/JPG , , BMP PNG , TIFF , ,HEIF |
Microsoft Office: Word ( DOCX ), Excel (XLSX ), PowerPoint (PPTX ), HTML |
|
---|---|---|---|
Read | ✔ | ✔ | ✔ |
Tata letak | ✔ | ✔ | ✔ |
Dokumen Umum | ✔ | ✔ | |
Bawaan | ✔ | ✔ | |
Ekstraksi kustom | ✔ | ✔ | |
Klasifikasi kustom | ✔ | ✔ | ✔ |
Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.
Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).
Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan
4
MB secara gratis (F0).Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.
Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.
Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan tentang
8
teks titik pada 150 titik per inci (DPI).Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.
Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan
1
GB untuk model neural.Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah
1
GB dengan maksimum 10.000 halaman. Untuk 2024-11-30 (GA), ukuran total data pelatihan adalah2
GB dengan maksimum 10.000 halaman.
Mulai menggunakan model Baca
Coba ekstrak teks dari formulir dan dokumen menggunakan Studio Kecerdasan Dokumen. Anda memerlukan aset berikut:
Langganan Azure—Anda dapat membuatnya secara gratis.
Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (
F0
) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.
Catatan
Saat ini, Document Intelligence Studio tidak mendukung format file Microsoft Word, Excel, PowerPoint, dan HTML.
Contoh dokumen yang diproses dengan Document Intelligence Studio
Anda dapat menganalisis contoh dokumen atau mengunggah file Anda sendiri.
Pilih tombol Jalankan analisis dan, jika perlu, konfigurasikan opsi Analisis:
Coba Studio Kecerdasan Dokumen.
Bahasa dan lokal yang didukung
Lihat halaman Dukungan Bahasa—model analisis dokumen untuk daftar lengkap bahasa yang didukung.
Ekstraksi data
Catatan
File Microsoft Word dan HTML didukung di v4.0. Kemampuan berikut saat ini tidak didukung:
- Tidak ada sudut, lebar/tinggi, dan unit yang dikembalikan dengan setiap objek halaman.
- Tidak ada poligon pembatas atau wilayah pembatas untuk setiap objek yang terdeteksi.
- Tidak ada rentang halaman (
pages
) sebagai parameter yang dikembalikan. - Tidak ada
lines
objek.
PDF yang dapat dicari
Kemampuan PDF yang dapat dicari memungkinkan Anda mengonversi PDF analog, seperti file PDF gambar yang dipindai, ke PDF dengan teks yang disematkan. Teks yang disematkan memungkinkan pencarian teks mendalam dalam konten PDF yang diekstrak dengan melapisi entitas teks yang terdeteksi di atas file gambar.
Penting
- Saat ini, hanya model
prebuilt-read
Read OCR yang mendukung kemampuan PDF yang dapat dicari. Saat menggunakan fitur ini, tentukanmodelId
sebagaiprebuilt-read
. Jenis model lain mengembalikan kesalahan. - PDF yang dapat dicari disertakan dengan
2024-11-30
prebuilt-read
model tanpa biaya tambahan untuk menghasilkan output PDF yang dapat dicari.- PDF yang dapat dicari saat ini hanya mendukung file PDF sebagai input.
Gunakan PDF yang dapat dicari
Untuk menggunakan PDF yang dapat dicari, buat POST
permintaan menggunakan Analyze
operasi dan tentukan format output sebagai pdf
:
POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202
Polling untuk penyelesaian Analyze
operasi. Setelah operasi selesai, terbitkan GET
permintaan untuk mengambil format PDF dari hasil Analyze
operasi.
Setelah berhasil diselesaikan, PDF dapat diambil dan diunduh sebagai application/pdf
. Operasi ini memungkinkan pengunduhan langsung bentuk teks PDF yang disematkan alih-alih JSON yang dikodekan Base64.
// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}
// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf
Halaman
Kumpulan halaman adalah daftar halaman dalam dokumen. Setiap halaman diwakili secara berurutan dalam dokumen dan menyertakan sudut orientasi yang menunjukkan apakah halaman diputar dan lebar dan tinggi (dimensi dalam piksel). Unit halaman dalam output model dihitung seperti yang ditunjukkan:
Format file | Unit halaman terkomputasi | Total halaman |
---|---|---|
Gambar (JPEG/JPG, PNG, BMP, HEIF) | Setiap gambar = 1 unit halaman | Total gambar |
Setiap halaman dalam PDF = 1 unit halaman | Total halaman dalam PDF | |
TIFF | Setiap gambar dalam Format File Gambar Bertag = 1 unit halaman | Total gambar di TIFF |
Word (DOCX) | Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total halaman hingga 3.000 karakter masing-masing |
Excel (XLSX) | Setiap lembar kerja = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total lembar kerja |
PowerPoint (PPTX) | Setiap slide = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total slide |
HTML | Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total halaman hingga 3.000 karakter masing-masing |
"pages": [
{
"pageNumber": 1,
"angle": 0,
"width": 915,
"height": 1190,
"unit": "pixel",
"words": [],
"lines": [],
"spans": []
}
]
# Analyze pages.
for page in result.pages:
print(f"----Analyzing document from page #{page.page_number}----")
print(
f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
)
Pilih halaman untuk ekstraksi teks
Untuk dokumen PDF yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages
untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk mengekstrak teks.
Paragraf
Model Baca OCR dalam Kecerdasan Dokumen mengekstrak semua blok teks yang diidentifikasi dalam paragraphs
koleksi sebagai objek tingkat atas di bawah analyzeResults
. Setiap entri dalam koleksi ini mewakili blok teks dan menyertakan teks yang diekstrak sebagaicontent
dan koordinat pembatas polygon
. Informasi span
menunjuk ke fragmen teks dalam properti tingkat content
atas yang berisi teks lengkap dari dokumen.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Teks, baris, dan kata
Model Read OCR mengekstrak teks gaya cetak dan tulisan tangan sebagai lines
dan words
. Model mengeluarkan koordinat polygon
dan confidence
untuk kata-kata yang diekstraksi. Koleksi styles
mencakup gaya tulisan tangan apa pun untuk garis jika terdeteksi bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa komputer tulisan tangan yang didukung.
Untuk Microsoft Word, Excel, PowerPoint, dan HTML, model Baca Inteligensi Dokumen v3.1 dan versi yang lebih baru mengekstrak semua teks yang disematkan apa adanya. Teks dilebarkan sebagai kata dan paragraf. Gambar yang disematkan tidak didukung.
"words": [
{
"content": "While",
"polygon": [],
"confidence": 0.997,
"span": {}
},
],
"lines": [
{
"content": "While healthcare is still in the early stages of its Al journey, we",
"polygon": [],
"spans": [],
}
]
# Analyze lines.
for line_idx, line in enumerate(page.lines):
words = line.get_words()
print(
f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
)
# Analyze words.
for word in words:
print(
f"......Word '{word.content}' has a confidence of {word.confidence}"
)
Gaya tulisan tangan untuk baris teks
Respons meliputi pengklasifikasian apakah setiap baris teks memiliki gaya tulisan tangan atau tidak, bersama dengan skor keyakinan. Untuk informasi selengkapnya, lihatdukungan bahasa tulisan tangan. Contoh berikut menunjukkan contoh cuplikan JSON.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Jika Anda mengaktifkan kemampuan addon font/style, Anda juga mendapatkan hasil font/gaya sebagai bagian styles
dari objek.
Langkah berikutnya
Selesaikan mulai cepat Inteligensi Dokumen:
Jelajahi REST API kami:
Temukan sampel lainnya di GitHub: