Megosztás a következőn keresztül:


Információk kinyerése egyszerű dokumentumokból egy előre összeállított modell használatával a SharePointban

Az egyszerű dokumentumfeldolgozási modell rugalmas, előre betanított megoldást kínál az információk alapszintű strukturált dokumentumokból való kinyeréséhez, beleértve az alábbi információkat:

  • Kulcs-érték párok – Gondoljon ezekre a címkékre és a hozzájuk tartozó információkra, például "Név: Adele Vance".

  • Kijelölésjelek – Ezek olyan jelölőnégyzetek vagy egyéb jelek, amelyek a dokumentumban lévő választási lehetőségeket vagy kijelöléseket jelölik.

  • Nevesített entitások – Ezek olyan konkrét elemek, mint a dokumentumok szövegében említett személyek, helyek vagy szervezetek neve.

  • Vonalkódok – Ezek az adatok géppel olvasható ábrázolásai, amelyek nyomon követési vagy azonosítási célokra használhatók a dokumentumokban.

A rögzített sémákkal rendelkező többi előre összeállított modelltől eltérően ez a modell képes azonosítani azokat a kulcsokat, amelyeket mások kihagyhatnak, és értékes alternatívát kínál az egyéni modellek címkézése és betanítása helyett. Ez a modell a vonalkódokat és a nyelvfelismerést is támogatja.

Dokumentumtípusok

Az egyszerű dokumentumfeldolgozás a strukturált információkat tartalmazó dokumentumok típusaival működik a legjobban, például:

  • Forms – Ezek gyakran világos mezőkkel és címkékkel rendelkeznek, így könnyebben nyerhetők ki kulcs-érték párok.

  • Számlák – Általában táblázatokkal és kulcs-érték párokkal konzisztens elrendezéseket tartalmaznak.

  • Nyugták – A számlákhoz hasonlóan könnyen kinyerhető strukturált adatokkal rendelkeznek.

  • Szerződések – Jól definiált szakaszokat és záradékokat tartalmaz, amelyek hatékonyan elemezhetők.

  • Bankszámlakivonatok – Olyan táblákat és strukturált adatokat tartalmaz, amelyek ideálisak a kinyeréshez.

Ezek a dokumentumok kihasználják az optikai karakterfelismerési (OCR) képességeket és mély tanulási folyamatokat, amelyek kulcs-érték párok, kijelölési jelek, táblák és nevesített entitások kinyerésére szolgálnak.

Megjegyzés:

Ez a modell jelenleg .pdf és képfájltípusokhoz, valamint több mint 100 nyelven érhető el. A jövőbeni kiadásokban további támogatott fájltípusokat adunk hozzá.

Egyszerű dokumentumfeldolgozási modell használatához kövesse az alábbi lépéseket:

1. lépés: A modell létrehozása

Egyszerű dokumentumfeldolgozási modell létrehozásához kövesse a Modell létrehozása a Syntexben című cikk utasításait. Ezután folytassa az alábbi lépésekkel a modell befejezéséhez.

2. lépés: Példafájl feltöltése elemzéshez

  1. A Models (Modellek ) lap Add a file to analyze (Fájl hozzáadása elemzéshez ) szakaszában válassza a Add a file (Fájl hozzáadása) lehetőséget.

    Képernyőkép az új modellek oldaláról, amelyen a Fájl hozzáadása elemzéshez szakasz látható.

  2. A modellelemzendő fájlok lapon válassza a Hozzáadás lehetőséget a használni kívánt fájl megkereséséhez.

    Képernyőkép a modell elemzésére szolgáló fájlok lapról, amelyen a Hozzáadás gomb látható.

  3. A Fájl hozzáadása a betanítási fájlok tárából lapon jelölje ki a fájlt, majd válassza a Hozzáadás lehetőséget.

    Képernyőkép a Fájl hozzáadása a betanítási fájlok tárlapjáról.

  4. A Modell elemzéséhez használandó fájlok lapon válassza a Tovább gombot.

3. lépés: A modell kinyerőinek kiválasztása

Az elszívó részleteit tartalmazó lapon megjelenik a dokumentumterület az oldal jobb oldalán, a Kibontók panel pedig a bal oldalon. Az Elszívók panelen a dokumentumban azonosított kinyerők listája látható.

Képernyőkép az elszívó részletek oldaláról és az Kinyerők panelről.

A dokumentumterületen zöld színnel kiemelt entitásmezők azok az elemek, amelyeket a modell észlelt a fájl elemzésekor. Amikor kiválaszt egy kinyerni kívánt entitást, a kiemelt mező kékre változik. Ha később úgy dönt, hogy nem tartalmazza az entitást, a kiemelt mező szürkére változik. A kiemelések megkönnyítik a kiválasztott kiolvasók aktuális állapotának megtekintését.

Tipp

Az entitásmezők nagyításához vagy kicsinyítéséhez használja az egér görgetőkerekét vagy a dokumentumterület alján található nagyítási vezérlőket.

Kiolvasó entitás kiválasztása

A dokumentumterületen vagy a Kivonatolók panelen választhat ki egy elszívót, attól függően, hogy milyen beállításokat szeretne.

  • Ha ki szeretne választani egy elszívót a dokumentumterületről, jelölje ki az entitásmezőt.
  • Ha ki szeretne választani egy elszívót az Kinyerők panelről, a Kinyerés oszlopban jelölje be az entitás nevétől jobbra található megfelelő jelölőnégyzetet.

Az elszívó kiválasztásakor megjelenik a Kiválasztó? mező a dokumentumterületen. A mezőben látható a kulcs neve (az elszívóhoz létrehozott név), az észlelt érték (a mező értéke a dokumentumban), az oszlop típusa, valamint az entitás kiolvasóként való kiválasztásának lehetősége.

Képernyőkép az elszívó részletek oldalán található Kiválasztó mezőről.

A rendszer a kulcsnevet használja oszlopnévként, amikor a modellt egy SharePoint-tárra alkalmazza. Ha szeretné, módosíthatja a kulcs nevét, hogy beszédesebb legyen. Az oszloptípus azt mutatja, hogyan jelennek meg az információk a tárakban. Módosíthatja az oszloptípust, hogy megjelenítse, hogyan szeretné megjeleníteni az információkat. Amikor a modellt egy tárra alkalmazza, oszlopformázással megadhatja, hogy hogyan jelenjen meg a dokumentumban.

Válassza ki a használni kívánt egyéb kinyerőket. A modellkonfigurációhoz további elemezendő fájlokat is hozzáadhat.

Kinyerő átnevezése

Az elszívókat háromféleképpen nevezheti át:

  • Az elszívó részletei lap dokumentumterületén válassza ki az entitásmezőt. A Kiválasztó? mezőben a Kulcsnév mezőben adjon új nevet az elszívónak.

  • Az elszívó részletei lap Kinyerők paneljén válassza ki az átnevezni kívánt kiszívót, majd válassza az Átnevezés lehetőséget.

  • A modell kezdőlapján, az Kinyerők szakaszban válassza ki az átnevezni kívánt kinyerőt, majd válassza az Átnevezés lehetőséget.

Oldaltartomány beállítása feldolgozáshoz

Ebben a modellben megadhatja, hogy a teljes fájl helyett egy fájl oldaltartományát dolgozza fel. Az Kinyerők panel Oldaltartomány szakaszában válassza ki a feldolgozni kívánt lapot. Alapértelmezés szerint az Oldaltartomány beállítás üres. Ha nincs megadva oldaltartomány, a teljes dokumentum feldolgozásra kerül. További információ: Oldaltartomány beállítása adott oldalakból származó információk kinyeréséhez.

Dokumentum nyelvének észlelése

Ebben a modellben észlelheti a dokumentum nyelvét, és kinyerheti egy oszlopba. Az Extractors panel Nyelvfelismerés szakaszában kapcsolja be a nyelvfelismerést. Az észlelt nyelv ISO-kódját jeleníti meg.

Képernyőkép az Extractors panel Nyelvfelismerés szakaszáról.

A nyelvfelismerést a modell Modellbeállítások paneljén is be- és kikapcsolhatja.

4. lépés: A modell alkalmazása

  • A módosítások mentéséhez és a modell kezdőlapjára való visszatéréshez az Kinyerők panelen válassza a Mentés és kilépés lehetőséget.

  • Ha készen áll a modell egy tárra való alkalmazására, a dokumentumterületen válassza a Tovább gombot. A Hozzáadás a tárhoz panelen válassza ki azt a tárat, amelyhez hozzá szeretné adni a modellt, majd válassza a Hozzáadás lehetőséget.

A fájltípusokkal, nyelvekkel, optikai karakterfelismeréssel és az előre összeállított modell egyéb szempontjaival kapcsolatos információkért lásd: A SharePoint előre összeállított dokumentumfeldolgozásának követelményei és korlátozásai.