Az Azure AI Searchben használt tartalom metaadat-tulajdonságai
Számos indexelő által támogatott adatforrás, például az Azure Blob Storage, az Azure Data Lake Storage Gen2 és a SharePoint különálló fájlokat vagy beágyazott objektumokat tartalmaz különböző tartalomtípusokból. Sok ilyen tartalomtípus rendelkezik olyan metaadat-tulajdonságokkal, amelyek hasznosak lehetnek az indexeléshez. Ugyanúgy létrehozhat keresési mezőket a szabványos blobtulajdonságokhoz, mint például metadata_storage_name
a keresési indexben a dokumentumformátumra jellemző metaadat-tulajdonságok.
Támogatott dokumentumformátumok
Az Azure AI Search támogatja a blobindexelést és a SharePoint-dokumentumindexelést a következő dokumentumformátumokhoz:
- CSV (lásd : CSV-blobok indexelése)
- EML
- EPUB
- GZ
- HTML
- JSON (lásd : JSON-blobok indexelése)
- KML (XML földrajzi ábrázolásokhoz)
- Microsoft Office-formátumok: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook-e-mailek), XML (2003 és 2006 WORD XML)
- Dokumentumformátumok megnyitása: ODT, ODS, ODP
- Egyszerű szöveges fájlok (lásd még : Egyszerű szöveg indexelése)
- RTF
- XML
- FÜTYÜLÉS
Dokumentumformátum tulajdonságai
Az alábbi táblázat összefoglalja az egyes dokumentumformátumok feldolgozását, és ismerteti a blobindexelő és a SharePoint Online-indexelő által kinyert metaadat-tulajdonságokat.
Dokumentumformátum/tartalomtípus | Kinyert metaadatok | Részletek feldolgozása |
---|---|---|
CSV (szöveg/csv) | metadata_content_type metadata_content_encoding |
Szöveg kinyerése MEGJEGYZÉS: Ha több dokumentummezőt kell kinyernie egy CSV-blobból, tekintse meg az Index CSV-blobokat |
DOC (alkalmazás/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is |
DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is |
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is |
EML (üzenet/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
Szöveg kinyerése a mellékletekkel együtt |
EPUB (alkalmazás/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
Szöveg kinyerése az archívum összes dokumentumából |
GZ (alkalmazás/gzip) | metadata_content_type |
Szöveg kinyerése az archívum összes dokumentumából |
HTML (szöveg/html vagy alkalmazás/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
HTML-elemek csíkozása és szöveg kinyerése |
JSON (alkalmazás/json) | metadata_content_type metadata_content_encoding |
Szöveg kinyerése MEGJEGYZÉS: Ha több dokumentummezőt kell kinyernie egy JSON-blobból, tekintse meg az Index JSON-blobokat |
KML (application/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
XML-elemek csíkozása és szöveg kinyerése |
MSG (application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
Szöveg kinyerése, beleértve a mellékletekből kinyert szöveget is. metadata_message_to_email , metadata_message_cc_email és metadata_message_bcc_email sztringgyűjtemények. A többi mező sztring. |
ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is |
ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is |
ODT (application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is |
PDF (alkalmazás/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
Szöveg kinyerése beágyazott dokumentumokkal együtt (a képek kivételével) |
Egyszerű szöveg (szöveg/egyszerű) | metadata_content_type metadata_content_encoding metadata_language |
Szöveg kinyerése |
PPT (application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is |
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is |
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is |
RTF (alkalmazás/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Szöveg kinyerése |
WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
XML-elemek csíkozása és szöveg kinyerése |
WORD XML (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
XML-elemek csíkozása és szöveg kinyerése |
XLS (application/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is |
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is |
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is |
XML (alkalmazás/xml) | metadata_content_type metadata_content_encoding metadata_language |
XML-elemek csíkozása és szöveg kinyerése |
ZIP (alkalmazás/zip) | metadata_content_type |
Szöveg kinyerése az archívum összes dokumentumából |