Сведения о параметрах поиска и аналитики в случаях обнаружения электронных данных

Статья
03/03/2025

Вы можете настроить параметры для каждого случая обнаружения электронных данных, чтобы управлять следующими функциями:

Неполные дубликаты и цепочки сообщений
Темы
Автоматически созданный запрос набора для проверки
Игнорирование текста
Распознавание текста

Совет

Приступая к работе с Microsoft Security Copilot изучить новые способы интеллектуальной и быстрой работы с использованием возможностей ИИ. Дополнительные сведения о Microsoft Security Copilot в Microsoft Purview.

Настройка параметров аналитики для обращения

Чтобы настроить параметры поиска и аналитики для дела, выполните следующие действия:

Перейдите на портал Microsoft Purview и выполните вход, используя учетные данные для учетной записи пользователя, назначенной разрешениями на обнаружение электронных данных.
Выберите решение eDiscovery карта, а затем выберите Варианты на панели навигации слева.
Выберите вариант, а затем выберите Параметры вариантов.
На странице Параметры вариантов выберите Поиск & аналитики.
Отобразится страница "Поиск & аналитики ". Эти параметры применяются ко всем наборам проверки в случае.
Выбрав подходящие параметры поиска и аналитики, нажмите кнопку Сохранить.

В следующих разделах этой статьи описаны параметры аналитики, которые можно настроить для конкретного случая.

Неполные дубликаты и цепочки сообщений

В этом разделе вы можете задать параметры для обнаружения повторяющихся данных, обнаружения почти повторяющихся данных и потоков электронной почты.

Почти дубликаты или потоки электронной почты: Если этот параметр включен, обнаружение повторяющихся данных, обнаружение почти повторяющихся данных и потоки электронной почты включаются в рабочий процесс при выполнении аналитики данных в наборе для проверки.
Пороговое значение сходства документов и электронной почты: Если уровень сходства для двух документов превышает пороговое значение, оба документа помещаются в один и тот же набор, почти повторяющийся.
Минимальное или максимальное количество слов: Эти параметры указывают, что почти дубликаты и анализ потоков электронной почты выполняются только в документах с минимальным количеством слов и максимальным количеством слов.

Обнаружение схожих документов (почти дубликатов)

Рассмотрим набор документов на проверку, в котором подмножество основано на одном и том же шаблоне и имеет в основном один и тот же язык шаблона, с некоторыми различиями здесь и там. Если бы рецензент мог определить это подмножество, тщательно просмотреть один из них и проверить различия для остальных, он не пропустил бы никакой уникальной информации, а на чтение всех документов потребуется лишь часть времени. При обнаружении почти одинаковых документов текстовые документы группируются вместе, чтобы помочь вам сделать процесс проверки более эффективным.

При запуске обнаружения неполных дубликатов система анализирует каждый документ с текстом. Затем он сравнивает каждый документ друг с другом, чтобы определить, превышает ли их сходство установленный порог. Если это так, документы группируются вместе. После сравнения и группировки всех документов документ из каждой группы помечается как "сводка"; При просмотре документов вы можете сначала просмотреть сводку и другие документы в том же почти повторяемом наборе, сосредоточив внимание на разнице между сводной и проверяемой документацией.

Потоки почты

Рассмотрим беседу по электронной почте, которая продолжается в течение некоторого времени. В большинстве случаев последнее сообщение в потоке электронной почты содержит содержимое всех предыдущих сообщений. Таким образом, просмотр последнего сообщения дает полный контекст беседы, которая произошла в потоке. Цепочки сообщений электронной почты определяют такие сообщения, чтобы проверяющие могли просмотреть часть собранных документов без потери контекста.

Email потоков в обнаружении электронных данных — это процесс организации последовательности связанных сообщений электронной почты, которые являются частью одной беседы. Сюда входит начальное сообщение электронной почты и все последующие ответы и переадресации, связанные с исходным письмом. Группируя эти сообщения электронной почты в потоки, рецензенты видят весь контекст беседы, что упрощает понимание потока общения. Такой подход помогает более эффективно выявлять релевантную информацию и устраняет необходимость просматривать каждое электронное письмо по отдельности. Email сообщения, включенные в процесс аналитики, заполняются следующими метаданными:

Включено. Это поле определяет, содержит ли сообщение электронной почты все уникальное содержимое из потока, включая все предыдущие ответы. Это гарантирует, что проверяется только наиболее полное сообщение электронной почты в потоке, что важно для понимания полного контекста беседы без необходимости просматривать каждый отдельный ответ.
Имеет уникальные вложения. Это поле помечает сообщения электронной почты, содержащие вложения, не найденные в других сообщениях в том же потоке. Даже если содержимое сообщения электронной почты дублируется, уникальные вложения помечаются для проверки всех соответствующих документов. Это важно в процессе юридической проверки, чтобы убедиться, что никакие уникальные доказательства не упускаются из виду, даже если текст сообщения электронной почты не является уникальным.

Чем это отличается от бесед в Outlook?

С первого взгляда это похоже на группы бесед в Outlook. Однако существуют некоторые важные различия. Рассмотрим беседу по электронной почте, которая была разделена на две беседы; Например, кто-то ответил на сообщение, которое не является последним в беседе, поэтому два последних сообщения в беседе содержат уникальное содержимое.

Outlook по-прежнему группирует сообщения электронной почты в одну беседу; Чтение только последнего сообщения электронной почты может пропустить контекст второго к последнему сообщению электронной почты, которое также содержит уникальное содержимое. Так как потоки электронной почты анализируют каждое сообщение на отдельные компоненты и сравнивают их, потоки электронной почты помечают оба последних сообщения как инклюзивные, гарантируя, что вы не пропустите контекст до тех пор, пока вы читаете все сообщения, помеченные как инклюзивные.

Давайте также рассмотрим поток электронной почты с несколькими ответами, где некоторые ответы включают встроенные ответы, которые изменяют цитируемое содержимое. Если встроенный ответ изменяет часть предыдущего сообщения, последний ответ не полностью охватывает содержимое предыдущего сообщения. Как последний ответ, так и более раннее письмо с уникальным содержимым помечаются как инклюзивные. Такой подход гарантирует, что все уникальные сведения из встроенного ответа сохраняются и не упускаются из виду.

Темы

В этом разделе можно задать следующие параметры для тем:

Темы: Если этот параметр включен, темы кластеризация выполняются в рамках рабочего процесса при выполнении аналитики данных в наборе для проверки.
Максимальное количество тем: Указывает максимальное количество тем, которые можно создать при выполнении аналитики данных в наборе для проверки.
Включите числа в темы: Если этот параметр включен, числа (которые идентифицируют тему) включаются при создании тем.
Динамическое изменение максимального числа тем: В некоторых ситуациях в наборе для проверки может быть недостаточно документов для создания нужного количества тем. Когда этот параметр включен, eDiscovery динамически настраивает максимальное количество тем, а не пытается принудительно установить максимальное количество тем.

При создании нового документа вы обычно начинаете с одной или нескольких идей, которые вы хотите передать в документе, а затем создаете документ, используя слова, которые соответствуют этим идеям. Чем более распространена идея, тем чаще встречаются слова, связанные с этой идеей. Этот метод также согласуется с тем, как читатели используют документы. При чтении документа важно понимать main идей, которые документ пытается передать. Это также включает в себя, где появляются идеи и какие отношения между идеями.

Этот процесс можно расширить, чтобы рецензент обнаружения электронных данных хотел использовать набор документов в деле. Они хотят узнать, какие идеи присутствуют в наборах для проверки и в каких документах говорится об этих идеях. Если они находят конкретный интересующий документ, они хотят иметь возможность видеть документы, в которых обсуждаются аналогичные идеи.

Функция Темы в обнаружении электронных данных пытается имитировать то, как люди рассуждают о документах, анализируя темы , обсуждаемые в наборе для проверки, и присваивая тему документам в наборе для проверки. В обнаружении электронных данных темы идут еще дальше и определяют доминирующую тему в каждом наборе и документе для проверки. Основной темой является тема, которая чаще всего появляется в документе.

Как работают темы?

Функция Темы анализирует документы с текстом в наборе для проверки для анализа общих тем, которые отображаются во всех документах в наборе для проверки. eDiscovery присваивает эти темы документам, в которых они появляются. Он также помечает каждую тему словами, которые используются в документах, которые представляют эту тему. Поскольку документ может содержать различные типы предметов, обнаружение электронных данных часто назначает несколько тем для проверки наборов и документов. Это называется списком тем. Тема, наиболее заметная в наборе для проверки или документе, обозначена в качестве основной темы.

Настройка тем

Темы поддерживаются для вариантов и применяются ко всем наборам проверки в них. Вы можете настроить параметры для тем при создании нового дела или обновить параметры темы для существующего случая.

Чтобы настроить темы в случае, выполните следующие действия.

Перейдите на портал Microsoft Purview и выполните вход, используя учетные данные для учетной записи пользователя, назначенной разрешениями на обнаружение электронных данных.
Выберите решение eDiscovery карта, а затем выберите Варианты (предварительная версия) на панели навигации слева.
Выберите вариант, выберите Параметры регистра.
На странице Параметры вариантов выберите Поиск & аналитики.
Выберите следующие параметры темы.
- Максимальное количество тем: Указывает максимальное количество тем, которые можно создать при выполнении аналитики данных в наборах для проверки, включенных в случай. Дополнительные сведения об ограничениях см. в разделе Ограничения в обнаружении электронных данных.
- Включите числа в темы: Числа (идентифицирующие тему) включаются при создании тем.
- Динамическое изменение максимального числа тем: В некоторых ситуациях в наборе для проверки может оказаться недостаточно документов, чтобы получить требуемое количество тем для дела. Если этот параметр включен, максимальное число тем настраивается динамически, а не пытается принудительно применить максимальное число тем.
Если необходимо исключить ключевые слова, связанные с темами, введите текст или регулярное выражение в поле Пропустить текст . В поле Применить к выберите Темы , чтобы применить текст или регулярное выражение ко всем темам.
Выберите Сохранить.

После создания нового дела аналитика автоматически запускается для данных при добавлении наборов проверки в дело. Темы для наборов проверки создаются в рамках обработки аналитики.

Запрос набора для проверки

Если установить флажок Автоматически создавать сохраненный поиск для проверки после аналитики, обнаружение электронных данных автоматически создает запрос набора проверки с именем For Review.

Этот запрос отфильтровывает повторяющиеся элементы из набора для проверки, что позволяет быстро просмотреть уникальные элементы в наборе для проверки. Этот запрос создается только при запуске аналитики для набора для проверки в деле. Дополнительные сведения о запросах набора проверки см. в разделе Запрос данных в наборе для проверки.

Игнорирование текста

Бывают ситуации, когда определенный текст снижает качество аналитики, например длинные заявления об отказе от ответственности, которые добавляются в сообщения электронной почты независимо от содержимого сообщения. Если вы знаете текст, который следует игнорировать, его можно исключить из аналитики, указав текстовую строку и функциональность аналитики (почти дубликаты, потоки электронной почты, темы и релевантность), для чего текст должен быть исключен. Также поддерживается использование регулярных выражений (RegEx) для игнорируемого текста.

Распознавание текста (OCR)

Если этот параметр включен, обработка OCR выполняется в файлах изображений. При применении распознавания текста к файлам изображений текст в этих файлах доступен в результатах поиска. OCR выполняется только для элементов, обработанных во время расширенного индексирования (если этот параметр выбран в поисковом запросе).

Например, если во время расширенного индексирования обрабатывается большой PDF-файл, который частично индексируется или имеет другие ошибки индексирования, применяется распознавание текста. Обработка OCR выполняется только для файлов, которые переиндексированы во время расширенного процесса индексирования. Это означает, что могут возникнуть ситуации, когда содержимое добавляется в набор для проверки, но некоторые вложения электронной почты не обрабатываются для OCR, так как эти файлы не обрабатываются во время расширенного индексирования.

После добавления данных в набор для проверки текст изображения можно просмотреть, выполнить поиск, пометить тегами и проанализировать. Извлеченный текст можно просмотреть в средстве просмотра текста выбранного файла изображения в наборе для проверки. Дополнительные сведения см. в разделе:

Поделиться через