Оператор reduce

Статья
02/06/2025

Область применения: ✅Microsoft Fabric✅✅

Группирует набор строк вместе на основе сходства значений.

Для каждой такой группы оператор возвращает patternзначение , countи representative. Лучше pattern всего описывает группу, в которой * символ представляет подстановочный знак. Число count значений в группе и representative одно из исходных значений в группе.

Синтаксис

T|reduce [kind= ReduceKind] Expr [bythreshold] =[ ,characters=символы]]

Дополнительные сведения о соглашениях синтаксиса.

Параметры

Имя (название)	Type	Обязательно	Описание
Expr	`string`	✔️	Значение, по которому требуется уменьшить.
Threshold	`real`		Значение от 0 до 1, определяющее минимальную долю строк, необходимых для сопоставления критериев группировки для активации операции сокращения. Значение по умолчанию — 0,1. Рекомендуется задать небольшое пороговое значение для больших входных данных. При меньшем пороговом значении более похожие значения группируются, что приводит к меньшему, но более похожим группам. Для большего порогового значения требуется меньше сходства, что приводит к тому, что больше групп, которые менее похожи. См. примеры.
Символы	`string`		Список символов, разделяющих термины. По умолчанию используется каждый числовый символ, отличный от ascii. Примеры см. в разделе "Поведение символов".
ReduceKind	`string`		Единственным допустимым значением является `source`. Если `source` задано, оператор добавляет `Pattern` столбец к существующим строкам таблицы вместо агрегирования `Pattern`.

Возвраты

Таблица с столько строк, сколько есть группы и столбцы с заголовком pattern, countи representative. Лучше pattern всего описывает группу, в которой * символ представляет подстановочный знак или заполнитель для произвольной строки вставки. Число count значений в группе и representative одно из исходных значений в группе.

Например, результат выполнения reduce by city может быть таким:

Расписание	Count	Уполномоченный
Сан *	5182	Сан-Бернард
Сант *	2846	Сент-Люси
Москва	3726	Москва
-на-	2730	One -on- One
Париж	2716	Париж

Примеры

В этом разделе показано, как использовать синтаксис для начала работы.

Примеры, приведенные в этой статье, используют общедоступные таблицы в кластера, например таблицу StormEvents в базе данных Samples.

В примерах этой статьи используются общедоступные таблицы, такие как таблица StormEvents в аналитике погоды примеры данных.

Небольшое пороговое значение

Этот запрос создает диапазон чисел, создает новый столбец с объединенными строками и случайными целыми числами, а затем группирует строки по новому столбцу с определенными параметрами сокращения.

Выполнить запрос

range x from 1 to 1000 step 1
| project MyText = strcat("MachineLearningX", tostring(toint(rand(10))))
| reduce by MyText  with threshold=0.001 , characters = "X"

Выходные данные

Расписание	Count	Уполномоченный
MachineLearning*	1000	MachineLearningX4

Большое пороговое значение

Выполнить запрос

range x from 1 to 1000 step 1
| project MyText = strcat("MachineLearningX", tostring(toint(rand(10))))
| reduce by MyText  with threshold=0.9 , characters = "X"

Выходные данные

Результат включает только те группы, в которых значение MyText отображается по крайней мере в 90% строк.

Расписание	Count	Уполномоченный
MachineLearning*	177	MachineLearningX9
MachineLearning*	102	MachineLearningX0
MachineLearning*	106	MachineLearningX1
MachineLearning*	96	MachineLearningX6
MachineLearning*	110	MachineLearningX4
MachineLearning*	100	MachineLearningX3
MachineLearning*	99	MachineLearningX8
MachineLearning*	104	MachineLearningX7
MachineLearning*	106	MachineLearningX2

Поведение параметра `Characters`

Если параметр Characters не определен, то каждый символ, отличный от ascii, становится разделителем терминов.

Выполнить запрос

range x from 1 to 10 step 1 | project str = strcat("foo", "Z", tostring(x)) | reduce by str

Выходные данные

Расписание	Count	Уполномоченный
и так далее.	10

Однако если указать, что "Z" является разделителем, то это как если бы каждое значение в str является двумя терминами: foo и tostring(x):

Выполнить запрос

range x from 1 to 10 step 1 | project str = strcat("foo", "Z", tostring(x)) | reduce by str with characters="Z"

Выходные данные

Расписание	Count	Уполномоченный
foo*	10	fooZ1

Применение `reduce` к санизированным входным данным

В следующем примере показано, как можно применить оператор reduce к входным данным, в которых идентификаторы GUID в столбце заменяются перед сокращением:

Начните с нескольких записей из таблицы трассировки. Затем уменьшите текстовый столбец, включающий случайные идентификаторы GUID. Так как случайные идентификаторы GUID вмешиваются в операцию уменьшения, замените их всеми строкой GUID. Теперь выполните операцию уменьшения. В случае, если в них есть другие идентификаторы quasi-random с внедренными символами "-" или "_", обрабатывают символы как несрочные разрывы.

Trace
| take 10000
| extend Text = replace(@"[0-9a-fA-F]{8}-[0-9a-fA-F]{4}-[0-9a-fA-F]{4}-[0-9a-fA-F]{4}-[0-9a-fA-F]{12}", "GUID", Text)
| reduce by Text with characters="-_"

autocluster

Примечание.

Реализация оператора в значительной reduce степени основана на документе Алгоритм кластеризации данных для шаблонов интеллектуального анализа данных из журналов событий Risto Vaarandi.

Поделиться через

Оператор reduce

Синтаксис

Параметры

Возвраты

Примеры

Небольшое пороговое значение

Большое пороговое значение

Поведение параметра `Characters`

Применение `reduce` к санизированным входным данным

Обратная связь

Дополнительные ресурсы

Поделиться через

Оператор reduce

Синтаксис

Параметры

Возвраты

Примеры

Небольшое пороговое значение

Большое пороговое значение

Поведение параметра Characters

Применение reduce к санизированным входным данным

Связанный контент

Обратная связь

Дополнительные ресурсы

Поведение параметра `Characters`

Применение `reduce` к санизированным входным данным