Informationen zu Such- und Analyseeinstellungen in eDiscovery-Fällen

Artikel
03/06/2025

Sie können Einstellungen für jeden eDiscovery-Fall konfigurieren, um die folgenden Funktionen zu steuern:

Erkennung von Quasiduplikaten und E-Mail-Threading
Designs
Automatisch generierte Prüfdateisatz-Abfrage
Ignorieren von Text
Optical Character Recognition (optische Zeichenerkennung)

Tipp

Beginnen Sie mit Microsoft Security Copilot, um neue Wege zu erkunden, um mithilfe der Leistungsfähigkeit von KI intelligenter und schneller zu arbeiten. Erfahren Sie mehr über Microsoft Security Copilot in Microsoft Purview.

Konfigurieren von Analyseeinstellungen für einen Fall

So konfigurieren Sie die Such-und Analyseeinstellungen für einen Fall:

Wechseln Sie zum Microsoft Purview-Portal , und melden Sie sich mit den Anmeldeinformationen für ein Benutzerkonto an, dem eDiscovery-Berechtigungen zugewiesen sind.
Wählen Sie die eDiscovery-Lösung Karte und dann im linken Navigationsbereich Fälle aus.
Wählen Sie einen Fall und dann Falleinstellungen aus.
Wählen Sie auf der Seite Falleinstellungendie Option Suchen & Analytics aus.
Der Fall Search & Analytics-Seite wird angezeigt. Diese Einstellungen werden in einem Fall auf alle Überprüfungssätze angewendet.
Nachdem Sie die entsprechenden Such- und Analyseoptionen ausgewählt haben, wählen Sie Speichern aus.

In den folgenden Abschnitten in diesem Artikel werden die Analyseeinstellungen beschrieben, die Sie für einen Fall konfigurieren können.

Erkennung von Quasiduplikaten und E-Mail-Threading

In diesem Abschnitt können Sie Parameter für die Erkennung von Duplikaten, die Erkennung nahezuer Duplikate und das E-Mail-Threading festlegen.

Nahezu Duplikate/E-Mail-Threading: Wenn diese Option aktiviert ist, werden die Duplikaterkennung, die Erkennung nahezuer Duplikate und E-Mail-Threading als Teil des Workflows einbezogen, wenn Sie Analysen für die Daten in einem Überprüfungssatz ausführen.
Dokument- und E-Mail-Ähnlichkeitsschwellenwert: Wenn die Ähnlichkeitsstufe für zwei Dokumente den Schwellenwert überschreitet, werden beide Dokumente in denselben nahezu doppelten Satz eingefügt.
Minimale/maximale Anzahl von Wörtern: Diese Einstellungen geben an, dass nahezu Duplikate und E-Mail-Threadinganalysen nur für Dokumente ausgeführt werden, die mindestens die minimale Anzahl von Wörtern und höchstens die maximale Anzahl von Wörtern aufweisen.

Erkennen von Quasiduplikaten

Stellen Sie sich eine Gruppe von Dokumenten vor, die überprüft werden müssen, in denen eine Teilmenge auf derselben Vorlage basiert und größtenteils die gleiche Textbausteinsprache aufweist, wobei hier und da einige Unterschiede bestehen. Wenn ein Prüfer diese Teilmenge identifizieren, eine davon gründlich überprüfen und die Unterschiede im Übrigen überprüfen könnte, würde er keine eindeutigen Informationen verpassen, während er nur einen Bruchteil der Zeit in Anspruch nehmen würde, um alle Dokumente zu lesen, die abgedeckt sind. Bei der Erkennung von Quasiduplikaten werden textuell ähnliche Dokumente gruppiert, um den Überprüfungsvorgang effizienter zu gestalten.

Bei Ausführung der Erkennung von Quasiduplikaten analysiert das System jedes Dokument mit Text. Anschließend werden alle Dokumente miteinander verglichen, um zu bestimmen, ob ihre Ähnlichkeit über dem Schwellenwert liegt. Ist dies der Fall, werden die Dokumente gruppiert. Sobald alle Dokumente verglichen und gruppiert wurden, wird ein Dokument aus jeder Gruppe als "Pivot" markiert; Beim Überprüfen Ihrer Dokumente können Sie zuerst einen Pivot überprüfen und die anderen Dokumente im gleichen nahezu doppelten Satz überprüfen, wobei sie sich auf den Unterschied zwischen dem Pivot und dem zu überprüfenden Dokument konzentrieren.

E-Mail-Threading

Stellen Sie sich eine E-Mail-Unterhaltung vor, die bereits seit einer Weile läuft. In den meisten Fällen enthält die letzte Nachricht im E-Mail-Thread den Inhalt aller vorangehenden Nachrichten. Aus diesem Grund bietet das Überprüfen der letzten Nachricht einen vollständigen Kontext der Konversation, die im Thread stattgefunden hat. E-Mail-Threading identifiziert solche Nachrichten, damit Prüfer lediglich einen Bruchteil der gesammelten Nachrichten überprüfen müssen, ohne dass Kontext verloren geht.

Email Threading in eDiscovery ist der Prozess der Organisation einer Sequenz verwandter E-Mails, die Teil derselben Unterhaltung sind. Dies umfasst die anfängliche E-Mail und alle nachfolgenden Antworten und Weiterleitungen, die mit der ursprünglichen E-Mail verknüpft sind. Indem sie diese E-Mails in Threads gruppieren, können Prüfer den gesamten Kontext einer Unterhaltung erkennen und so den Kommunikationsfluss leichter verstehen. Dieser Ansatz trägt dazu bei, relevante Informationen effizienter zu identifizieren, und die Notwendigkeit, jede E-Mail einzeln zu überprüfen, entfällt. Email Nachrichten, die im Analyseprozess enthalten sind, werden die folgenden Metadaten aufgefüllt:

Ist inklusive: Dieses Feld gibt an, ob eine E-Mail den gesamten eindeutigen Inhalt eines Threads enthält, einschließlich aller vorherigen Antworten. Dadurch wird sichergestellt, dass nur die umfassendste E-Mail in einem Thread überprüft wird, was für das Verständnis des vollständigen Kontexts der Unterhaltung unerlässlich ist, ohne jede einzelne Antwort überprüfen zu müssen.
Hat eindeutige Anlagen: Dieses Feld markiert E-Mails, die Anlagen enthalten, die in anderen E-Mails innerhalb desselben Threads nicht gefunden wurden. Auch wenn der E-Mail-Inhalt dupliziert wird, werden eindeutige Anlagen gekennzeichnet, um sicherzustellen, dass alle relevanten Dokumente überprüft werden. Dies ist bei der rechtlichen Überprüfung wichtig, um sicherzustellen, dass keine eindeutigen Beweise übersehen werden, auch wenn der E-Mail-Text selbst nicht eindeutig ist.

Wie unterscheidet es sich von Unterhaltungen in Outlook?

Auf einen Blick klingt dies ähnlich wie Konversationsgruppierungen in Outlook. Es gibt jedoch einige wichtige Unterschiede. Stellen Sie sich eine E-Mail-Unterhaltung vor, die in zwei Unterhaltungen gespalten wurde. für instance hat jemand auf eine E-Mail geantwortet, die nicht die neueste in der Unterhaltung ist, sodass beide die letzten beiden E-Mails in der Unterhaltung eindeutigen Inhalt haben.

Outlook würde die E-Mails weiterhin in einer einzigen Unterhaltung gruppieren. Wenn Sie nur die letzte E-Mail lesen, wird möglicherweise der Kontext der vorletzten E-Mail nicht angezeigt, die ebenfalls eindeutigen Inhalt enthält. Da beim E-Mail-Threading jede E-Mail in einzelne Komponenten analysiert und verglichen wird, würde das E-Mail-Threading beide letzten beiden E-Mails als inklusiv markieren, um sicherzustellen, dass Sie keinen Kontext verpassen, solange Sie alle E-Mails lesen, die als inklusiv gekennzeichnet sind.

Betrachten wir auch einen E-Mail-Thread mit mehreren Antworten, bei dem einige Antworten Inlineantworten enthalten, die den Inhalt in Anführungszeichen ändern. Wenn eine Inlineantwort einen Teil der vorherigen E-Mail ändert, umfasst die letzte Antwort nicht vollständig den Inhalt der vorherigen E-Mail. Sowohl die neueste Antwort als auch die frühere E-Mail mit eindeutigen Inhalten werden als inklusiv gekennzeichnet. Dieser Ansatz stellt sicher, dass alle eindeutigen Informationen aus der Inlineantwort erhalten bleiben und nicht übersehen werden.

Designs

In diesem Abschnitt können Sie die folgenden Parameter für Designs festlegen:

Themen: Wenn diese Option aktiviert ist, wird das Clustering von Designs als Teil des Workflows ausgeführt, wenn Sie Analysen für die Daten in einem Überprüfungssatz ausführen.
Maximale Anzahl von Designs: Gibt die maximale Anzahl von Designs an, die generiert werden können, wenn Sie Analysen für die Daten in einem Überprüfungssatz ausführen.
Einschließen von Zahlen in Designs: Wenn diese Option aktiviert ist, werden Zahlen (die ein Design identifizieren) beim Generieren von Designs einbezogen.
Passen Sie die maximale Anzahl von Designs dynamisch an: In bestimmten Situationen gibt es möglicherweise nicht genügend Dokumente in einem Überprüfungssatz, um die gewünschte Anzahl von Designs zu erzeugen. Wenn diese Einstellung aktiviert ist, passt eDiscovery die maximale Anzahl von Designs dynamisch an, anstatt zu versuchen, die maximale Anzahl von Designs zu erzwingen.

Wenn Sie ein neues Dokument erstellen, beginnen Sie in der Regel mit einer oder mehreren Ideen, die Sie im Dokument vermitteln möchten, und erstellen sie dann mit Wörtern, die diesen Ideen entsprechen. Je häufiger eine Idee ist, desto häufiger sind die Wörter, die sich auf diese Idee beziehen. Diese Methode richtet sich auch an die Art und Weise aus, wie Leser Dokumente nutzen. Die wichtigsten Dinge, die beim Lesen eines Dokuments zu verstehen sind, sind die Standard Ideen, die das Dokument zu vermitteln versucht. Dazu gehört auch, welche Ideen wo erscheinen und welche Beziehungen zwischen den Ideen bestehen.

Dieser Prozess kann auf die Art und Weise erweitert werden, wie ein eDiscovery-Prüfer eine Reihe von Dokumenten in einem Fall nutzen möchte. Sie wollen sehen, welche Ideen in den Review-Sets vorhanden sind und welche Dokumente über diese Ideen sprechen. Wenn sie ein bestimmtes Dokument von Interesse finden, möchten sie In der Lage sein, Dokumente anzuzeigen, in denen ähnliche Ideen besprochen werden.

Die Funktionalität Designs in eDiscovery versucht, die Argumentation von Personen über Dokumente nachzuahmen, indem die themen analysiert werden, die in einem Überprüfungssatz besprochen werden, und den Dokumenten im Überprüfungssatz ein Design zugewiesen wird. In eDiscovery geht Designs noch einen Schritt weiter und identifiziert das dominante Design in jedem Überprüfungssatz und Dokument. Das dominante Design ist das, das am häufigsten in einem Dokument angezeigt wird.

Wie funktionieren Designs?

Die Designfunktion analysiert Dokumente mit Text in einem Überprüfungssatz, um allgemeine Designs zu analysieren, die in allen Dokumenten im Überprüfungssatz angezeigt werden. eDiscovery weist diese Designs den Dokumenten zu, in denen Sie enthalten sind. Außerdem wird jedes Design mit den in den Dokumenten verwendeten Wörtern gekennzeichnet, die für das Design repräsentativ sind. Da ein Dokument verschiedene Arten von Themen enthalten kann, weist eDiscovery überprüfungssätzen und Dokumenten häufig mehrere Designs zu. Dies wird als Themenliste bezeichnet. Das Design, das in einem Rezensionssatz oder Dokument am prominentesten angezeigt wird, wird als dominantes Design bezeichnet.

Konfigurieren von Designs

Designs werden für Fälle unterstützt und gelten für alle darin enthaltenen Überprüfungssätze. Sie können die Einstellungen für Designs konfigurieren, wenn Sie einen neuen Fall erstellen, oder Sie können die Designeinstellungen für einen vorhandenen Fall aktualisieren.

Führen Sie die folgenden Schritte aus, um Designs in einem Fall zu konfigurieren:

Wechseln Sie zum Microsoft Purview-Portal , und melden Sie sich mit den Anmeldeinformationen für ein Benutzerkonto an, dem eDiscovery-Berechtigungen zugewiesen sind.
Wählen Sie die eDiscovery-Lösung Karte und dann im linken Navigationsbereich Fälle (Vorschau) aus.
Wählen Sie einen Fall und dann Falleinstellungen aus.
Wählen Sie auf der Seite Falleinstellungendie Option Suchen & Analytics aus.
Wählen Sie je nach Bedarf die folgenden Designoptionen aus:
- Maximale Anzahl von Designs: Gibt die maximale Anzahl von Designs an, die generiert werden können, wenn Sie Analysen für die Daten in Prüfsätzen ausführen, die in einem Fall enthalten sind. Weitere Informationen zu Grenzwerten finden Sie unter Grenzwerte in eDiscovery.
- Einschließen von Zahlen in Designs: Zahlen (die ein Design identifizieren) werden beim Generieren von Designs eingeschlossen.
- Passen Sie die maximale Anzahl von Designs dynamisch an: In bestimmten Situationen gibt es möglicherweise nicht genügend Dokumente in einem Überprüfungssatz, um die gewünschte Anzahl von Themen für den Fall zu erzeugen. Wenn diese Einstellung aktiviert ist, wird die maximale Anzahl von Designs dynamisch angepasst, anstatt zu versuchen, die maximale Anzahl von Designs zu erzwingen.
Wenn Sie Schlüsselwörter ausschließen müssen, die designs zugeordnet sind, geben Sie den erforderlichen Text oder regulären Ausdruck in das Textfeld Ignorieren ein . Wählen Sie im Feld Übernehmen fürdie Option Designs aus, um den Text oder regulären Ausdruck auf alle Designs anzuwenden.
Klicken Sie auf Speichern.

Nachdem ein neuer Fall erstellt wurde, werden analysen automatisch für die Daten ausgeführt, wenn die Überprüfungssätze dem Fall hinzugefügt werden. Designs für die Überprüfungssätze werden im Rahmen der Analyseverarbeitung generiert.

Prüfdateisatz-Abfrage

Wenn Sie das Kontrollkästchen Zur Überprüfung gespeicherte Suche automatisch erstellen aktivieren , generiert eDiscovery automatisch eine Überprüfungssatzabfrage mit dem Namen For Review.

Diese Abfrage filtert doppelte Elemente aus dem Überprüfungssatz heraus, sodass Sie die eindeutigen Elemente im Überprüfungssatz schnell überprüfen können. Diese Abfrage wird nur erstellt, wenn Sie einen Prüfdateisatz innerhalb des Falls einer Analyse unterziehen. Weitere Informationen zu Überprüfungssatzabfragen finden Sie unter Abfragen der Daten in einem Überprüfungssatz.

Ignorieren von Text

Es gibt Situationen, in denen bestimmte Texte die Qualität der Analyse beeinträchtigen, z. B. langwierige Haftungsausschlüsse, die E-Mail-Nachrichten unabhängig vom Inhalt der E-Mail hinzugefügt werden. Wenn Sie Text kennen, der ignoriert werden sollte, können Sie ihn aus der Analyse ausschließen, indem Sie die Textzeichenfolge und die Analysefunktionen (Nahezu-Duplikate, E-Mail-Threading, Designs und Relevanz) angeben, für die der Text ausgeschlossen werden soll. Die Verwendung regulärer Ausdrücke (RegEx) für ignorierten Text wird ebenfalls unterstützt.

Optical Character Recognition (OCR; optische Zeichenerkennung)

Wenn diese Einstellung aktiviert ist, wird die OCR-Verarbeitung für Bilddateien ausgeführt. Wenn OCR auf Bilddateien angewendet wird, ist Text in diesen Dateien in den Suchergebnissen verfügbar. OCR wird nur für Elemente ausgeführt, die während der erweiterten Indizierung verarbeitet werden (wenn diese Option in der Suchabfrage ausgewählt ist).

Wenn beispielsweise eine große PDF-Datei, die teilweise indiziert ist oder andere Indizierungsfehler aufweist, während der erweiterten Indizierung verarbeitet wird, wird OCR angewendet. Die OCR-Verarbeitung erfolgt nur für Dateien, die während des erweiterten Indizierungsprozesses neu indiziert werden. Dies bedeutet, dass es Situationen geben kann, in denen Inhalte zu einem Überprüfungssatz hinzugefügt werden, aber einige E-Mail-Anlagen nicht für OCR verarbeitet werden, da diese Dateien während der erweiterten Indizierung nicht verarbeitet werden.

Nachdem Daten zu einem Überprüfungssatz hinzugefügt wurden, kann der Bildtext überprüft, durchsucht, markiert und analysiert werden. Sie können den extrahierten Text im Text-Viewer der ausgewählten Bilddatei im Überprüfungssatz anzeigen. Weitere Informationen finden Sie unter:

Freigeben über