Bahasa yang Didukung oleh Windows Search

Artikel
03/12/2025

Topik ini menjelaskan bagaimana Windows Search mendukung beberapa bahasa.

Tokenisasi, Wordbreakers, dan Sumber Daya Bahasa

Windows Search tidak bergantung pada bahasa, tetapi akurasi pencarian di seluruh bahasa dapat bervariasi karena cara wordbreakers membuat token teks. Wordbreakers menerapkan berbagai aturan tokenisasi untuk bahasa dan memecah teks menjadi token individual, atau kata-kata, untuk diindeks atau dicari.

Baik bahasa teks terindeks maupun string kueri dipecah menjadi token. Karena aturan tokenisasi bervariasi menurut bahasa, ada pemisah kata terpisah untuk setiap bahasa atau keluarga bahasa. Jika ada ketidakcocokan antara bahasa kueri dan bahasa terindeks, hasilnya bisa tidak dapat diprediksi.

Windows Search dikirim dengan sekumpulan wordbreakers yang terdefinisi dengan baik. Komponen pemecah kata dan stemmer klasik didukung di Windows Vista dan yang lebih baru. Jika bahasa dokumen tidak dapat ditentukan, Windows Search mencoba mendeteksi bahasa untuk mengidentifikasi pemecah kata yang paling tepat. Windows Search mencoba mendeteksi bahasa dengan memanggil fungsi GetSystemPreferredUILanguages untuk menentukan bahasa Antarmuka Pengguna Ganda (MUI) pertama (yang biasanya merupakan bahasa UI sistem kecuali paket bahasa MUI diinstal). Jika panggilan tersebut berhasil, pemecah kata untuk bahasa MUI pertama digunakan. Jika panggilan ke GetSystemPreferredUILanguages gagal, Windows Search mengambil lokal sistem dengan memanggil fungsiGetSystemDefaultLCID dan menggunakan pemecah kata yang terkait dengan lokal tersebut.

Jika tidak ada pemecah kata yang diinstal untuk bahasa, Windows Search berhenti pada spasi kosong dengan menggunakan pemecah kata Netral.

Anda dapat menghapus bahasa melalui registri, seperti yang diilustrasikan dalam contoh berikut.

HKEY_LOCAL_MACHINE
   SYSTEM
      CurrentControlSet
         Control
            ContentIndex
               Language
                  Dutch_Dutch
                     (Default)
                     Locale
                     NoiseFile
                     StemmerClass = CLSID
                     WBreakerClass = CLSID

Ujung

Jika Anda membuat perubahan pada registri, mulai ulang Windows Search.

Ketika Windows Search memerlukan pemecah kata baru, pengidentifikasi kelas (CLSID) dibaca, dan pemecah kata yang dibuat di-cache.

Anda dapat membuat pemecah kata kustom untuk bahasa dengan mengimplementasikan antarmukaIWordBreaker. Windows Search kemudian memanggil metode IWordBreaker saat membangun indeks konten dan menjalankan kueri.

Informasi lokal untuk konten terindeks diambil dari sumber konten. Jika pelaksana sumber tidak mengetahui lokal konten terindeks, itu harus mengatur lokal ke LOCALE_NEUTRAL.

Misalnya, jika Anda menerapkan handler filter (implementasi antarmukaIFilter), handler properti, atau handler protokol, Anda harus mengatur lokal untuk konten terindeks ke LOCALE_NEUTRAL kecuali Anda memiliki informasi lokal tertentu dan yakin akan akurasinya.

Ujung

Jika kueri indeks didasarkan pada input pengguna, lokal harus cocok dengan bahasa tempat pengguna mengetik. Anda dapat menentukan lokal ini dengan memanggil fungsiGetKeyboardLayout.

Bahasa yang Didukung oleh Wordbreakers

Windows Search menyertakan wordbreakers untuk mendukung bahasa berikut.

Kunci registri	Bahasa (sublanguage)	LCID
Arabic_SaudiArabia	Arab (Netral)	0x0001
Bengali_Default	Bangla (Netral)	0x0045
Bulgarian_Default	Bulgaria (Bulgaria)	0x0402
Catalan_Default	Katala (Katala)	0x0403
Chinese_HongKong	Tionghoa (Hong Kong SAR, RRC)	0x0C04
Chinese_Simplified	Bahasa Tionghoa (Sederhana)	0x0804
Chinese_Traditional	Tionghoa (Tradisional)	0x0404
Croatian_Default	Kroasia (Kroasia)	0x041A
Czech_Default	Ceko (Republik Ceko)	0x0405
Danish_Default	Denmark (Denmark)	0x0406
Dutch_Dutch	Belanda (Belanda)	0x0413
English_UK	Inggris (Inggris Raya)	0x0809
English_US	Inggris (Amerika Serikat)	0x0409
Finnish_Default	Finlandia (Finlandia)	0x040B
French_French	Prancis (Prancis)	0x040C
German_German	Jerman (Jerman)	0x0407
Greek_Default	Yunani (Yunani)	0x0408
Gujarati_Default	Gujarati (India)	0x0447
Hebrew_Default	Ibrani (Netral)	0x000D
Hindi_Default	Hindi (India)	0x0439
Hungarian_Default	Hongaria (Hongaria)	0x040E
Icelandic_Default	Islandia (Islandia)	0x040F
Indonesian_Default	Indonesia (Indonesia)	0x0421
Italian_Italian	Italia (Italia)	0x0410
Japanese_Default	Jepang (Jepang)	0x0411
Kannada_Default	Kannada (India)	0x044B
Korean_Default	Korea (Korea)	0x0412
Latvian_Default	Bahasa Latvia (Latvia)	0x0426
Lithuanian_Default	Lituania (Lithuania)	0x0427
Malay_Malaysia	Melayu (Malaysia)	0x043E
Malayalam_Default	Malayalam (Netral)	0x004C
Marathi_Default	Marathi (India)	0x044E
Norwegian_Bokmal	Norwegia (Bokmål, Norwegia)	0x0414
Polish_Default	Polandia (Polandia)	0x0415
Portuguese_Portugal	Portugis (Portugal)	0x0816
Portuguese_Brazil	Portugis (Brasil)	0x0416
Punjabi_Default	Punjabi (India)	0x0446
Romanian_Default	Rumania (Rumania)	0x0418
Russian_Default	Rusia (Netral)	0x0019
Serbian_Cyrillic	Serbia (Serbia dan Montenegro, Mantan, Sirilik)	0x0C1A
Serbian_Latin	Serbia (Serbia dan Montenegro, Mantan, Latin)	0x081A
Slovak_Default	Slowakia (Slowakia)	0x041B
Slovenian_Default	Slovenia (Slovenia)	0x0424
Spanish_Modern	Spanyol (Spanyol, Jenis Modern)	0x0C0A
Swedish_Default	Swedia (Swedia)	0x041D
Tamil_Default	Tamil (India)	0x0449
Telugu_Default	Telugu (India)	0x044A
Thai_Default	Thai (Thailand)	0x041E
Turkish_Default	Turki (Türkiye)	0x041F
Ukrainian_Default	Ukraina (Ukraina)	0x0422
Urdu_Default	Urdu (Pakistan)	0x0420
Vietnamese_Default	Vietnam (Vietnam)	0x042A

Nota

LCID untuk beberapa bahasa dalam tabel dihasilkan menggunakan pengidentifikasi bahasa, pengidentifikasi sublanguage, dan pengidentifikasi pengurutan.

Untuk informasi selengkapnya tentang bahasa dan pengidentifikasi terkait, lihat Konstanta dan String Pengidentifikasi Bahasa .

Nota

Tidak ada jaminan bahwa semua kunci registri bahasa ini akan ada di komputer tertentu. Pemecah kata untuk bahasa tertentu mungkin atau mungkin tidak diinstal di komputer tergantung pada pengaturan pengguna.

Dimulai di Windows 8.1, cara yang disukai untuk menggunakan wordbreakers adalah melalui kelas WinRT API WordsSegmenter.

Sumber Daya Tambahan

Untuk informasi tentang cara menerapkan dan menggunakan pemecah kata kustom dan stemmer untuk bahasa dan lokal tambahan, lihat Memperluas Sumber Daya Bahasa di Windows Search.
Jika Anda perlu mengidentifikasi bahasa teks, Anda dapat menggunakan Deteksi Otomatis Bahasa (LAD), yang tersedia di Windows 7 dan yang lebih baru. Untuk informasi selengkapnya, lihat Extended Linguistic Services (ELS).
Untuk informasi tentang mengelola, mengkueri, dan memperluas indeks, lihat Panduan Pengembang Windows Search.

Gambaran Umum Windows Search
Windows Search sebagai platform pengembangan
Menggunakan Kode Terkelola dengan Data Shell dan Windows Search

Bagikan melalui

Bahasa yang Didukung oleh Windows Search

Tokenisasi, Wordbreakers, dan Sumber Daya Bahasa

Bahasa yang Didukung oleh Wordbreakers

Sumber Daya Tambahan

Saran dan Komentar

Sumber Daya Tambahan:

Bagikan melalui

Bahasa yang Didukung oleh Windows Search

Tokenisasi, Wordbreakers, dan Sumber Daya Bahasa

Bahasa yang Didukung oleh Wordbreakers

Sumber Daya Tambahan

Topik terkait

Saran dan Komentar

Sumber Daya Tambahan: