Azure AI Search'te kullanılan içerik meta veri özellikleri
Azure Blob Depolama, Azure Data Lake Storage 2. Nesil ve SharePoint dahil olmak üzere dizin oluşturucu tarafından desteklenen çeşitli veri kaynakları, tek başına dosyalar veya çeşitli içerik türlerinin eklenmiş nesnelerini içerir. Bu içerik türlerinin çoğunda dizin oluşturmak için yararlı olabilecek meta veri özellikleri vardır. gibi standart blob özellikleri için arama alanları oluşturabildiğiniz gibi metadata_storage_name
, belge biçimine özgü meta veri özellikleri için arama dizininde alanlar da oluşturabilirsiniz.
Desteklenen belge biçimleri
Azure AI Search, aşağıdaki belge biçimleri için blob dizin oluşturmayı ve SharePoint belge dizini oluşturmayı destekler:
- CSV (bkz. CSV bloblarının dizinini oluşturma)
- EML
- EPUB
- GZ
- HTML
- JSON (bkz. JSON bloblarını dizinleme)
- KML (coğrafi gösterimler için XML)
- Microsoft Office biçimleri: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook e-postaları), XML (hem 2003 hem de 2006 WORD XML)
- Belge biçimlerini açma: ODT, ODS, ODP
- Düz metin dosyaları (ayrıca bkz. Düz metin dizini oluşturma)
- RTF
- XML
- ZIP
Belge biçimi özellikleri
Aşağıdaki tablo, her belge biçimi için işlemeyi özetler ve bir blob dizin oluşturucu ve SharePoint Online dizin oluşturucu tarafından ayıklanan meta veri özelliklerini açıklar.
Belge biçimi / içerik türü | Ayıklanan meta veriler | İşlem ayrıntıları |
---|---|---|
CSV (metin/csv) | metadata_content_type metadata_content_encoding |
Metin ayıklama NOT: CSV blobundan birden çok belge alanı ayıklamanız gerekiyorsa bkz. CSV bloblarını dizine alma |
DOC (application/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Eklenmiş belgeler de dahil olmak üzere metin ayıklama |
DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Eklenmiş belgeler de dahil olmak üzere metin ayıklama |
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Eklenmiş belgeler de dahil olmak üzere metin ayıklama |
EML (ileti/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
Ekler de dahil olmak üzere metin ayıklama |
EPUB (uygulama/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
Arşivdeki tüm belgelerden metin ayıklama |
GZ (uygulama/gzip) | metadata_content_type |
Arşivdeki tüm belgelerden metin ayıklama |
HTML (metin/html veya uygulama/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
HTML öğelerini şeritle ve metin ayıkla |
JSON (application/json) | metadata_content_type metadata_content_encoding |
Metin ayıklama NOT: Bir JSON blobundan birden çok belge alanı ayıklamanız gerekiyorsa bkz. JSON bloblarını dizine alma |
KML (application/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
XML öğelerini şeritle ve metin ayıkla |
MSG (application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
Eklerden ayıklanan metin de dahil olmak üzere metni ayıklayın. metadata_message_to_email , metadata_message_cc_email ve metadata_message_bcc_email dize koleksiyonlarıdır. Kalan alanlar dizelerdir. |
ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
Eklenmiş belgeler de dahil olmak üzere metin ayıklama |
ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Eklenmiş belgeler de dahil olmak üzere metin ayıklama |
ODT (application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Eklenmiş belgeler de dahil olmak üzere metin ayıklama |
PDF (uygulama/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
Eklenmiş belgeler de dahil olmak üzere metin ayıklama (resimler hariç) |
Düz metin (metin/düz) | metadata_content_type metadata_content_encoding metadata_language |
Metin ayıklama |
PPT (application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Eklenmiş belgeler de dahil olmak üzere metin ayıklama |
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Eklenmiş belgeler de dahil olmak üzere metin ayıklama |
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Eklenmiş belgeler de dahil olmak üzere metin ayıklama |
RTF (uygulama/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Metin ayıklama |
WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
XML öğelerini şeritle ve metin ayıkla |
WORD XML (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
XML öğelerini şeritle ve metin ayıkla |
XLS (application/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Eklenmiş belgeler de dahil olmak üzere metin ayıklama |
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Eklenmiş belgeler de dahil olmak üzere metin ayıklama |
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Eklenmiş belgeler de dahil olmak üzere metin ayıklama |
XML (uygulama/xml) | metadata_content_type metadata_content_encoding metadata_language |
XML öğelerini şeritle ve metin ayıkla |
ZIP (uygulama/zip) | metadata_content_type |
Arşivdeki tüm belgelerden metin ayıklama |