En savoir plus sur les paramètres de recherche et d’analytique dans les cas d’eDiscovery

Article
03/06/2025

Vous pouvez configurer les paramètres de chaque cas eDiscovery afin de contrôler les fonctionnalités suivantes :

Quasi-doublons et thread de courrier
Thèmes
Requête de jeu à réviser générée automatiquement
Ignorer le texte
Reconnaissance optique des caractères

Conseil

Bien démarrer avec Microsoft Security Copilot pour explorer de nouvelles façons de travailler plus intelligemment et plus rapidement à l’aide de la puissance de l’IA. En savoir plus sur Microsoft Security Copilot dans Microsoft Purview.

Configurer les paramètres d’analyse d’un cas

Pour configurer les paramètres de recherche et d’analyse d’un cas :

Accédez au portail Microsoft Purview et connectez-vous à l’aide des informations d’identification d’un compte d’utilisateur affecté à des autorisations eDiscovery.
Sélectionnez la solution eDiscovery carte, puis sélectionnez Cas dans la navigation de gauche.
Sélectionnez un cas, puis sélectionnez Paramètres de la casse.
Dans la page Paramètres de cas , sélectionnez Rechercher & analytique.
La page De recherche & d’analyse de cas s’affiche. Ces paramètres sont appliqués à tous les jeux de révision dans un cas.
Après avoir sélectionné les options de recherche et d’analyse applicables, sélectionnez Enregistrer.

Les sections suivantes de cet article décrivent les paramètres d’analyse que vous pouvez configurer pour un cas.

Quasi-doublons et thread de courrier

Dans cette section, vous pouvez définir des paramètres pour la détection des doublons, la détection des doublons et le thread de messagerie.

Doublons proches/threads d’e-mails : Lorsqu’elle est activée, la détection des doublons, la détection des doublons et le thread d’e-mail sont inclus dans le flux de travail lorsque vous exécutez des analyses sur les données d’un jeu de révision.
Seuil de similarité des documents et des e-mails : Si le niveau de similarité de deux documents dépasse le seuil, les deux documents sont placés dans le même jeu de quasi-doublons.
Nombre minimal/maximal de mots : Ces paramètres spécifient que les doublons proches et l’analyse des threads d’e-mail sont effectuées uniquement sur les documents qui ont au moins le nombre minimal de mots et au maximum le nombre maximal de mots.

Détection des quasi-duplicatas

Prenons l’exemple d’un ensemble de documents à examiner dans lequel un sous-ensemble est basé sur le même modèle et a principalement le même langage réutilisable, avec quelques différences ici et là. Si un réviseur pouvait identifier ce sous-ensemble, examiner l’un d’eux en détail et examiner les différences pour le reste, il ne manquerait aucune information unique tout en ne prenant qu’une fraction de temps pour lire tous les documents couverts. La détection des quasi-doublons regroupe les documents textuellement similaires afin de renforcer l’efficacité du processus d’examen.

Lorsqu’il procède à la détection des quasi-doublons, le système analyse tous les documents contenant du texte. Il les compare ensuite afin de déterminer si leur niveau de similarité est supérieur à un seuil défini. Si c’est le cas, les documents sont regroupés. Une fois que tous les documents sont comparés et regroupés, un document de chaque groupe est marqué comme « pivot » ; Lors de l’examen de vos documents, vous pouvez d’abord examiner un tableau croisé dynamique et passer en revue les autres documents du même ensemble quasiment en double, en mettant l’accent sur la différence entre le tableau croisé dynamique et le document en cours de révision.

Threading de messagerie

Prenons l’exemple d’une conversation par e-mail qui se tient depuis un certain temps. Dans la plupart des cas, le dernier message du thread d’e-mail inclut le contenu de tous les messages précédents. Par conséquent, l’examen du dernier message donne un contexte complet de la conversation qui s’est produite dans le thread. La fonctionnalité Thread de courrier identifie ce type de courrier. Les réviseurs peuvent dès lors se contenter d’examiner une partie du courrier collecté pour prendre connaissance du contexte.

Email threading dans eDiscovery est le processus d’organisation d’une séquence d’e-mails connexes qui font partie de la même conversation. Cela inclut l’e-mail initial et toutes les réponses et transfert suivants liés à l’e-mail d’origine. En regroupant ces e-mails en threads, les réviseurs voient l’ensemble du contexte d’une conversation, ce qui facilite la compréhension du flux de communication. Cette approche permet d’identifier plus efficacement les informations pertinentes et d’éliminer la nécessité d’examiner chaque e-mail individuellement. Email messages inclus dans le processus d’analyse ont les métadonnées suivantes remplies :

Est inclusif : ce champ identifie si un e-mail contient tout le contenu unique d’un thread, y compris toutes les réponses précédentes. Il garantit que seul l’e-mail le plus complet d’un thread est examiné, ce qui est essentiel pour comprendre le contexte complet de la conversation sans avoir à examiner chaque réponse individuelle.
Contient des pièces jointes uniques : ce champ marque les e-mails qui contiennent des pièces jointes introuvables dans d’autres e-mails au sein du même thread. Même si le contenu de l’e-mail est dupliqué, des pièces jointes uniques sont signalées pour garantir que tous les documents pertinents sont examinés. Cela est important dans le processus de révision juridique pour s’assurer qu’aucun élément de preuve unique n’est négligé, même si le corps du courrier lui-même n’est pas unique.

En quoi est-il différent des conversations dans Outlook ?

D’un coup d’œil, cela ressemble aux regroupements de conversations dans Outlook. Toutefois, il existe quelques distinctions importantes. Prenons l’exemple d’une conversation par e-mail qui a été dupliqué en deux conversations ; par instance, une personne a répondu à un e-mail qui n’est pas le dernier de la conversation, de sorte que les deux derniers e-mails de la conversation ont tous deux un contenu unique.

Outlook regrouperait toujours les e-mails en une seule conversation ; la lecture uniquement du dernier e-mail peut manquer le contexte de l’avant-dernier e-mail, qui contient également du contenu unique. Étant donné que les threads d’e-mail analysent chaque e-mail en composants individuels et les comparent, le threading d’e-mail marque les deux derniers e-mails comme inclusifs, garantissant ainsi que vous ne manquerez aucun contexte tant que vous lisez tous les e-mails marqués comme inclusifs.

Prenons également en compte un thread d’e-mail avec plusieurs réponses, où certaines réponses incluent des réponses inline qui modifient le contenu entre guillemets. Si une réponse inline modifie une partie de l’e-mail précédent, la réponse la plus récente n’englobe pas entièrement le contenu de l’e-mail précédent. La réponse la plus récente et l’e-mail précédent avec un contenu unique sont marqués comme inclusifs. Cette approche garantit que toutes les informations uniques de la réponse inline sont conservées et ne sont pas négligées.

Thèmes

Dans cette section, vous pouvez définir les paramètres suivants pour les thèmes :

Thèmes: Lorsqu’il est activé, les thèmes clustering sont exécutés dans le cadre du flux de travail lorsque vous exécutez des analyses sur les données d’un jeu de révision.
Nombre maximal de thèmes : Spécifie le nombre maximal de thèmes qui peuvent être générés lorsque vous exécutez des analyses sur les données d’un jeu de révision.
Inclure des nombres dans les thèmes : Lorsqu’il est activé, les nombres (qui identifient un thème) sont inclus lors de la génération de thèmes.
Ajustez dynamiquement le nombre maximal de thèmes : Dans certaines situations, il peut ne pas y avoir suffisamment de documents dans un jeu de révision pour produire le nombre souhaité de thèmes. Lorsque ce paramètre est activé, eDiscovery ajuste le nombre maximum de thèmes de façon dynamique plutôt que de tenter de le faire respecter.

Lorsque vous créez un document, vous commencez généralement par une ou plusieurs idées que vous souhaitez transmettre dans le document, puis vous composez le document à l’aide de mots qui s’alignent sur ces idées. Plus une idée est répandue, plus les mots liés à cette idée ont tendance à être fréquents. Cette méthode s’aligne également sur la façon dont les lecteurs consomment les documents. Les éléments importants à comprendre lors de la lecture d’un document sont les main idées que le document tente de transmettre. Cela inclut également les idées qui apparaissent où et quelles sont les relations entre les idées.

Ce processus peut être étendu à la façon dont un réviseur eDiscovery souhaite consommer un ensemble de documents dans un cas. Ils veulent voir quelles idées sont présentes dans les ensembles de révision et quels documents parlent de ces idées. S’ils trouvent un document d’intérêt particulier, ils souhaitent pouvoir voir les documents qui traitent d’idées similaires.

La fonctionnalité Thèmes dans eDiscovery tente d’imiter la façon dont les humains raisonner sur les documents, en analysant les thèmes abordés dans un jeu de révision et en affectant un thème aux documents de l’ensemble de révision. Dans eDiscovery, Thèmes va encore plus loin et identifie le thème dominant dans chaque jeu de révision et document. Le thème dominant est celui qui apparaît le plus souvent dans un document.

Comment fonctionnent les thèmes ?

La fonctionnalité Thèmes analyse les documents avec du texte dans un ensemble de révision pour analyser les thèmes courants qui apparaissent dans tous les documents de l’ensemble de révision. eDiscovery attribue ces thèmes aux documents dans lesquels ils apparaissent. Il associe par ailleurs les thèmes aux mots utilisés dans les documents représentatifs du thème. Étant donné qu’un document peut contenir différents types d’objets, eDiscovery affecte souvent plusieurs thèmes pour examiner des ensembles et des documents. Il s’agit de la liste thèmes. Le thème qui apparaît le plus en évidence dans un ensemble de révision ou un document est désigné comme son thème dominant.

Configuration des thèmes

Les thèmes sont pris en charge pour les cas et s’appliquent à tous les ensembles de révision qu’ils contiennent. Vous pouvez configurer les paramètres des thèmes lorsque vous créez un cas ou vous pouvez mettre à jour les paramètres de thème pour un cas existant.

Pour configurer des thèmes dans un cas, procédez comme suit :

Accédez au portail Microsoft Purview et connectez-vous à l’aide des informations d’identification d’un compte d’utilisateur affecté à des autorisations eDiscovery.
Sélectionnez la solution eDiscovery carte, puis sélectionnez Cas (préversion) dans la navigation de gauche.
Sélectionnez un cas, sélectionnez Paramètres de cas.
Dans la page Paramètres de cas , sélectionnez Rechercher & analytique.
Sélectionnez les options de thème suivantes, le cas échéant :
- Nombre maximal de thèmes : Spécifie le nombre maximal de thèmes qui peuvent être générés lorsque vous exécutez des analyses sur les données des jeux de révision inclus dans un cas. Pour plus d’informations sur les limites, consultez Limites dans eDiscovery.
- Inclure des nombres dans les thèmes : Les nombres (qui identifient un thème) sont inclus lors de la génération de thèmes.
- Ajustez dynamiquement le nombre maximal de thèmes : Dans certains cas, il peut ne pas y avoir suffisamment de documents dans un jeu de révision pour produire le nombre souhaité de thèmes pour le cas. Lorsque ce paramètre est activé, le nombre maximal de thèmes est ajusté dynamiquement au lieu de tenter d’appliquer le nombre maximal de thèmes.
Si vous devez exclure les mots clés associés aux thèmes, entrez le texte ou l’expression régulière nécessaire dans le champ Ignorer le texte . Dans le champ Appliquer à , sélectionnez Thèmes pour appliquer le texte ou l’expression régulière à tous les thèmes.
Sélectionnez Enregistrer.

Une fois qu’un nouveau cas est créé, les analyses sont automatiquement exécutées sur les données lorsque les jeux de révision sont ajoutés au cas. Les thèmes des ensembles de révision sont générés dans le cadre du traitement analytique.

Requête de jeu à réviser

Si vous cochez la case Créer automatiquement une recherche enregistrée pour la révision après l’analyse , eDiscovery génère automatiquement la requête de jeu de révision nommée Pour révision.

Cette requête filtre les éléments dupliqués de l’ensemble de révision, ce qui vous permet d’examiner rapidement les éléments uniques du jeu de révision. Elle n’est créée que lorsque vous effectuez une analyse pour un jeu à réviser dans le cas. Pour plus d’informations sur les requêtes de jeu de révision, consultez Interroger les données dans un jeu de révision.

Ignorer le texte

Il existe des situations où certains textes diminuent la qualité de l’analytique, comme les longues clauses d’exclusion de responsabilité qui sont ajoutées aux messages électroniques, quel que soit le contenu de l’e-mail. Si vous connaissez du texte qui doit être ignoré, vous pouvez l’exclure de l’analytique en spécifiant la chaîne de texte et la fonctionnalité d’analyse (quasi-doublons, threads de messagerie, thèmes et pertinence) pour lesquelles le texte doit être exclu. L’utilisation d’expressions régulières (RegEx) pour le texte ignoré est également prise en charge.

Reconnaissance optique des caractères

Lorsque ce paramètre est activé, le traitement OCR s’exécute sur les fichiers image. Lorsque la reconnaissance optique de caractères est appliquée aux fichiers image, le texte de ces fichiers est disponible dans les résultats de la recherche. La reconnaissance optique de caractères s’exécute uniquement sur les éléments traités pendant l’indexation avancée (si cette option est sélectionnée dans la requête de recherche).

Par exemple, si un fichier PDF volumineux partiellement indexé ou comportant d’autres erreurs d’indexation est traité pendant l’indexation avancée, la reconnaissance optique de caractères est appliquée. Le traitement OCR se produit uniquement sur les fichiers qui sont réindexés pendant le processus d’indexation avancée. Cela signifie qu’il peut y avoir des situations où du contenu est ajouté à un jeu de révision, mais certaines pièces jointes de courrier électronique ne sont pas traitées pour l’OCR, car ces fichiers ne sont pas traités pendant l’indexation avancée.

Une fois les données ajoutées à un jeu de révision, le texte de l’image peut être examiné, recherché, étiqueté et analysé. Vous pouvez afficher le texte extrait dans la visionneuse de texte du fichier image sélectionné dans le jeu de révision. Pour plus d’informations, reportez-vous aux rubriques suivantes :

Partager via