Bagikan melalui


Bahasa yang Didukung oleh Windows Search

Topik ini menjelaskan bagaimana Windows Search mendukung beberapa bahasa.

Tokenisasi, Wordbreakers, dan Sumber Daya Bahasa

Windows Search tidak bergantung pada bahasa, tetapi akurasi pencarian di seluruh bahasa dapat bervariasi karena cara wordbreakers membuat token teks. Wordbreakers menerapkan berbagai aturan tokenisasi untuk bahasa dan memecah teks menjadi token individual, atau kata-kata, untuk diindeks atau dicari.

Baik bahasa teks terindeks maupun string kueri dipecah menjadi token. Karena aturan tokenisasi bervariasi menurut bahasa, ada pemisah kata terpisah untuk setiap bahasa atau keluarga bahasa. Jika ada ketidakcocokan antara bahasa kueri dan bahasa terindeks, hasilnya bisa tidak dapat diprediksi.

Windows Search dikirim dengan sekumpulan wordbreakers yang terdefinisi dengan baik. Komponen pemecah kata dan stemmer klasik didukung di Windows Vista dan yang lebih baru. Jika bahasa dokumen tidak dapat ditentukan, Windows Search mencoba mendeteksi bahasa untuk mengidentifikasi pemecah kata yang paling tepat. Windows Search mencoba mendeteksi bahasa dengan memanggil fungsi GetSystemPreferredUILanguages untuk menentukan bahasa Antarmuka Pengguna Ganda (MUI) pertama (yang biasanya merupakan bahasa UI sistem kecuali paket bahasa MUI diinstal). Jika panggilan tersebut berhasil, pemecah kata untuk bahasa MUI pertama digunakan. Jika panggilan ke GetSystemPreferredUILanguages gagal, Windows Search mengambil lokal sistem dengan memanggil fungsiGetSystemDefaultLCID dan menggunakan pemecah kata yang terkait dengan lokal tersebut.

Jika tidak ada pemecah kata yang diinstal untuk bahasa, Windows Search berhenti pada spasi kosong dengan menggunakan pemecah kata Netral.

Anda dapat menghapus bahasa melalui registri, seperti yang diilustrasikan dalam contoh berikut.

HKEY_LOCAL_MACHINE
   SYSTEM
      CurrentControlSet
         Control
            ContentIndex
               Language
                  Dutch_Dutch
                     (Default)
                     Locale
                     NoiseFile
                     StemmerClass = CLSID
                     WBreakerClass = CLSID

Ujung

Jika Anda membuat perubahan pada registri, mulai ulang Windows Search.

 

Ketika Windows Search memerlukan pemecah kata baru, pengidentifikasi kelas (CLSID) dibaca, dan pemecah kata yang dibuat di-cache.

Anda dapat membuat pemecah kata kustom untuk bahasa dengan mengimplementasikan antarmukaIWordBreaker. Windows Search kemudian memanggil metode IWordBreaker saat membangun indeks konten dan menjalankan kueri.

Informasi lokal untuk konten terindeks diambil dari sumber konten. Jika pelaksana sumber tidak mengetahui lokal konten terindeks, itu harus mengatur lokal ke LOCALE_NEUTRAL.

Misalnya, jika Anda menerapkan handler filter (implementasi antarmukaIFilter), handler properti, atau handler protokol, Anda harus mengatur lokal untuk konten terindeks ke LOCALE_NEUTRAL kecuali Anda memiliki informasi lokal tertentu dan yakin akan akurasinya.

Ujung

Jika kueri indeks didasarkan pada input pengguna, lokal harus cocok dengan bahasa tempat pengguna mengetik. Anda dapat menentukan lokal ini dengan memanggil fungsiGetKeyboardLayout.

 

Bahasa yang Didukung oleh Wordbreakers

Windows Search menyertakan wordbreakers untuk mendukung bahasa berikut.

Kunci registri Bahasa (sublanguage) LCID
Arabic_SaudiArabia Arab (Netral) 0x0001
Bengali_Default Bangla (Netral) 0x0045
Bulgarian_Default Bulgaria (Bulgaria) 0x0402
Catalan_Default Katala (Katala) 0x0403
Chinese_HongKong Tionghoa (Hong Kong SAR, RRC) 0x0C04
Chinese_Simplified Bahasa Tionghoa (Sederhana) 0x0804
Chinese_Traditional Tionghoa (Tradisional) 0x0404
Croatian_Default Kroasia (Kroasia) 0x041A
Czech_Default Ceko (Republik Ceko) 0x0405
Danish_Default Denmark (Denmark) 0x0406
Dutch_Dutch Belanda (Belanda) 0x0413
English_UK Inggris (Inggris Raya) 0x0809
English_US Inggris (Amerika Serikat) 0x0409
Finnish_Default Finlandia (Finlandia) 0x040B
French_French Prancis (Prancis) 0x040C
German_German Jerman (Jerman) 0x0407
Greek_Default Yunani (Yunani) 0x0408
Gujarati_Default Gujarati (India) 0x0447
Hebrew_Default Ibrani (Netral) 0x000D
Hindi_Default Hindi (India) 0x0439
Hungarian_Default Hongaria (Hongaria) 0x040E
Icelandic_Default Islandia (Islandia) 0x040F
Indonesian_Default Indonesia (Indonesia) 0x0421
Italian_Italian Italia (Italia) 0x0410
Japanese_Default Jepang (Jepang) 0x0411
Kannada_Default Kannada (India) 0x044B
Korean_Default Korea (Korea) 0x0412
Latvian_Default Bahasa Latvia (Latvia) 0x0426
Lithuanian_Default Lituania (Lithuania) 0x0427
Malay_Malaysia Melayu (Malaysia) 0x043E
Malayalam_Default Malayalam (Netral) 0x004C
Marathi_Default Marathi (India) 0x044E
Norwegian_Bokmal Norwegia (Bokmål, Norwegia) 0x0414
Polish_Default Polandia (Polandia) 0x0415
Portuguese_Portugal Portugis (Portugal) 0x0816
Portuguese_Brazil Portugis (Brasil) 0x0416
Punjabi_Default Punjabi (India) 0x0446
Romanian_Default Rumania (Rumania) 0x0418
Russian_Default Rusia (Netral) 0x0019
Serbian_Cyrillic Serbia (Serbia dan Montenegro, Mantan, Sirilik) 0x0C1A
Serbian_Latin Serbia (Serbia dan Montenegro, Mantan, Latin) 0x081A
Slovak_Default Slowakia (Slowakia) 0x041B
Slovenian_Default Slovenia (Slovenia) 0x0424
Spanish_Modern Spanyol (Spanyol, Jenis Modern) 0x0C0A
Swedish_Default Swedia (Swedia) 0x041D
Tamil_Default Tamil (India) 0x0449
Telugu_Default Telugu (India) 0x044A
Thai_Default Thai (Thailand) 0x041E
Turkish_Default Turki (Türkiye) 0x041F
Ukrainian_Default Ukraina (Ukraina) 0x0422
Urdu_Default Urdu (Pakistan) 0x0420
Vietnamese_Default Vietnam (Vietnam) 0x042A

 

Nota

LCID untuk beberapa bahasa dalam tabel dihasilkan menggunakan pengidentifikasi bahasa, pengidentifikasi sublanguage, dan pengidentifikasi pengurutan.

 

Untuk informasi selengkapnya tentang bahasa dan pengidentifikasi terkait, lihat Konstanta dan String Pengidentifikasi Bahasa .

Nota

Tidak ada jaminan bahwa semua kunci registri bahasa ini akan ada di komputer tertentu. Pemecah kata untuk bahasa tertentu mungkin atau mungkin tidak diinstal di komputer tergantung pada pengaturan pengguna.

 

Dimulai di Windows 8.1, cara yang disukai untuk menggunakan wordbreakers adalah melalui kelas WinRT API WordsSegmenter.

Sumber Daya Tambahan

Gambaran Umum Windows Search

Windows Search sebagai platform pengembangan

Menggunakan Kode Terkelola dengan Data Shell dan Windows Search