WordsSegmenter Kelas
Definisi
Penting
Beberapa informasi terkait produk prarilis yang dapat diubah secara signifikan sebelum dirilis. Microsoft tidak memberikan jaminan, tersirat maupun tersurat, sehubungan dengan informasi yang diberikan di sini.
Kelas segmenter yang dapat membandingkan teks yang disediakan menjadi kata atau batang kata (tergantung pada bahasa tertentu).
public ref class WordsSegmenter sealed
/// [Windows.Foundation.Metadata.Activatable(Windows.Data.Text.IWordsSegmenterFactory, 65536, Windows.Foundation.UniversalApiContract)]
/// [Windows.Foundation.Metadata.ContractVersion(Windows.Foundation.UniversalApiContract, 65536)]
/// [Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
/// [Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
class WordsSegmenter final
/// [Windows.Foundation.Metadata.ContractVersion(Windows.Foundation.UniversalApiContract, 65536)]
/// [Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
/// [Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
/// [Windows.Foundation.Metadata.Activatable(Windows.Data.Text.IWordsSegmenterFactory, 65536, "Windows.Foundation.UniversalApiContract")]
class WordsSegmenter final
[Windows.Foundation.Metadata.Activatable(typeof(Windows.Data.Text.IWordsSegmenterFactory), 65536, typeof(Windows.Foundation.UniversalApiContract))]
[Windows.Foundation.Metadata.ContractVersion(typeof(Windows.Foundation.UniversalApiContract), 65536)]
[Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
[Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
public sealed class WordsSegmenter
[Windows.Foundation.Metadata.ContractVersion(typeof(Windows.Foundation.UniversalApiContract), 65536)]
[Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
[Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
[Windows.Foundation.Metadata.Activatable(typeof(Windows.Data.Text.IWordsSegmenterFactory), 65536, "Windows.Foundation.UniversalApiContract")]
public sealed class WordsSegmenter
function WordsSegmenter(language)
Public NotInheritable Class WordsSegmenter
- Warisan
- Atribut
Persyaratan Windows
Rangkaian perangkat |
Windows 10 (diperkenalkan dalam 10.0.10240.0 - for Xbox, see UWP features that aren't yet supported on Xbox)
|
API contract |
Windows.Foundation.UniversalApiContract (diperkenalkan dalam v1.0)
|
Keterangan
Untuk bahasa yang tidak menggunakan spasi antar kata (seperti Jepang, Cina, Korea, dan Thailand), penggunaan segmenter adalah satu-satunya cara untuk mendapatkan kata-kata individual untuk skenario pemrosesan tekstual seperti pencarian kata kunci.
Bahasa yang disediakan ketika objek ini dibangun dicocokkan dengan bahasa dengan pemecah kata pada sistem, dan aturan segmentasi kata terbaik yang tersedia digunakan. Bahasa tidak perlu menjadi salah satu bahasa yang didukung aplikasi. Jika tidak ada aturan bahasa yang didukung yang tersedia khusus untuk bahasa tersebut, aturan netral bahasa digunakan (implementasi Unicode Standard Annex #29 Unicode Text Segmentation), dan properti ResolvedLanguage diatur ke "und" (bahasa yang tidak ditentukan).
Untuk skenario pencarian kata kunci, selalu disarankan untuk meminta segmenter dalam bahasa konten teks.
Untuk skenario pemeriksaan ejaan, beberapa segmenter bahasa (seperti Jerman) dapat mengembalikan beberapa segmen batang kata untuk satu kata majemuk. Sebaliknya, API pemeriksaan ejaan mungkin mengharapkan kata-kata disimpan bersama-sama sebagai satu kata. Untuk bahasa tersebut, Anda dapat memilih untuk memaksa aturan segmentasi netral bahasa dengan secara eksplisit meminta segmenter "und" (bahasa yang tidak ditentukan). Namun, melakukannya akan sangat mengurangi kualitas pemecahan bahasa yang tidak berspasi. Oleh karena itu, disarankan agar Anda menggunakan LANGUAGE.Script API untuk menentukan apakah bahasa konten menggunakan salah satu skrip non-spasi berikut:
Skrip | Bahasa |
---|---|
Bopo | Bopomofo |
Brah | Brahmi |
Egyp | Hieroglif Mesir |
Goth | Gothic |
Hang | Hangul |
Hang | Hiragana |
Hang | Hangul Lama |
Hani | Han |
Italia | Miring Lama |
Java | Jawa |
Kana | Katakana |
Khar | Kharoshthi |
Khmr | Khmer |
Laoo | Laos |
Lisu | Lisu |
Mymr | Myanmar |
Talu | Tai Lue Baru |
Thailand | Thailand |
Tibt | Tibet |
Xsux | Runcing |
Yiii | Yi |
Jika tidak ada skrip ini yang ditemukan, maka harus aman untuk menggunakan "und" untuk segmentasi skenario pemeriksaan ejaan.
Konstruktor
WordsSegmenter(String) |
Membuat objek WordsSegmenter . Lihat pengenalan di WordsSegmenter untuk deskripsi tentang bagaimana bahasa yang diberikan ke konstruktor ini digunakan. |
Properti
ResolvedLanguage |
Mendapatkan bahasa aturan yang digunakan oleh objek WordsSegmenter ini. "und" (tidak ditentukan) dikembalikan jika kita menggunakan aturan netral bahasa. |
Metode
GetTokenAt(String, UInt32) |
Menentukan dan mengembalikan kata atau batang kata yang berisi atau mengikuti indeks tertentu ke dalam teks yang disediakan. |
GetTokens(String) |
Menentukan dan mengembalikan semua kata atau batang kata dalam teks yang disediakan. |
Tokenize(String, UInt32, WordSegmentsTokenizingHandler) |
Memanggil handler yang disediakan dengan dua iterator yang melakukan iterasi melalui kata-kata sebelum dan mengikuti indeks tertentu ke dalam teks yang disediakan. |