Információk kinyerése egyszerű dokumentumokból egy előre összeállított modell használatával a SharePointban
Az egyszerű dokumentumfeldolgozási modell rugalmas, előre betanított megoldást kínál az információk alapszintű strukturált dokumentumokból való kinyeréséhez, beleértve az alábbi információkat:
Kulcs-érték párok – Gondoljon ezekre a címkékre és a hozzájuk tartozó információkra, például "Név: Adele Vance".
Kijelölésjelek – Ezek olyan jelölőnégyzetek vagy egyéb jelek, amelyek a dokumentumban lévő választási lehetőségeket vagy kijelöléseket jelölik.
Nevesített entitások – Ezek olyan konkrét elemek, mint a dokumentumok szövegében említett személyek, helyek vagy szervezetek neve.
Vonalkódok – Ezek az adatok géppel olvasható ábrázolásai, amelyek nyomon követési vagy azonosítási célokra használhatók a dokumentumokban.
A rögzített sémákkal rendelkező többi előre összeállított modelltől eltérően ez a modell képes azonosítani azokat a kulcsokat, amelyeket mások kihagyhatnak, és értékes alternatívát kínál az egyéni modellek címkézése és betanítása helyett. Ez a modell a vonalkódokat és a nyelvfelismerést is támogatja.
Dokumentumtípusok
Az egyszerű dokumentumfeldolgozás a strukturált információkat tartalmazó dokumentumok típusaival működik a legjobban, például:
Forms – Ezek gyakran világos mezőkkel és címkékkel rendelkeznek, így könnyebben nyerhetők ki kulcs-érték párok.
Számlák – Általában táblázatokkal és kulcs-érték párokkal konzisztens elrendezéseket tartalmaznak.
Nyugták – A számlákhoz hasonlóan könnyen kinyerhető strukturált adatokkal rendelkeznek.
Szerződések – Jól definiált szakaszokat és záradékokat tartalmaz, amelyek hatékonyan elemezhetők.
Bankszámlakivonatok – Olyan táblákat és strukturált adatokat tartalmaz, amelyek ideálisak a kinyeréshez.
Ezek a dokumentumok kihasználják az optikai karakterfelismerési (OCR) képességeket és mély tanulási folyamatokat, amelyek kulcs-érték párok, kijelölési jelek, táblák és nevesített entitások kinyerésére szolgálnak.
Megjegyzés:
Ez a modell jelenleg .pdf és képfájltípusokhoz, valamint több mint 100 nyelven érhető el. A jövőbeni kiadásokban további támogatott fájltípusokat adunk hozzá.
Egyszerű dokumentumfeldolgozási modell használatához kövesse az alábbi lépéseket:
- 1. lépés: A modell létrehozása
- 2. lépés: Példafájl feltöltése elemzéshez
- 3. lépés: A modell kinyerőinek kiválasztása
- 4. lépés: A modell alkalmazása
1. lépés: A modell létrehozása
Egyszerű dokumentumfeldolgozási modell létrehozásához kövesse a Modell létrehozása a Syntexben című cikk utasításait. Ezután folytassa az alábbi lépésekkel a modell befejezéséhez.
2. lépés: Példafájl feltöltése elemzéshez
A Models (Modellek ) lap Add a file to analyze (Fájl hozzáadása elemzéshez ) szakaszában válassza a Add a file (Fájl hozzáadása) lehetőséget.
A modellelemzendő fájlok lapon válassza a Hozzáadás lehetőséget a használni kívánt fájl megkereséséhez.
A Fájl hozzáadása a betanítási fájlok tárából lapon jelölje ki a fájlt, majd válassza a Hozzáadás lehetőséget.
A Modell elemzéséhez használandó fájlok lapon válassza a Tovább gombot.
3. lépés: A modell kinyerőinek kiválasztása
Az elszívó részleteit tartalmazó lapon megjelenik a dokumentumterület az oldal jobb oldalán, a Kibontók panel pedig a bal oldalon. Az Elszívók panelen a dokumentumban azonosított kinyerők listája látható.
A dokumentumterületen zöld színnel kiemelt entitásmezők azok az elemek, amelyeket a modell észlelt a fájl elemzésekor. Amikor kiválaszt egy kinyerni kívánt entitást, a kiemelt mező kékre változik. Ha később úgy dönt, hogy nem tartalmazza az entitást, a kiemelt mező szürkére változik. A kiemelések megkönnyítik a kiválasztott kiolvasók aktuális állapotának megtekintését.
Tipp
Az entitásmezők nagyításához vagy kicsinyítéséhez használja az egér görgetőkerekét vagy a dokumentumterület alján található nagyítási vezérlőket.
Kiolvasó entitás kiválasztása
A dokumentumterületen vagy a Kivonatolók panelen választhat ki egy elszívót, attól függően, hogy milyen beállításokat szeretne.
- Ha ki szeretne választani egy elszívót a dokumentumterületről, jelölje ki az entitásmezőt.
- Ha ki szeretne választani egy elszívót az Kinyerők panelről, a Kinyerés oszlopban jelölje be az entitás nevétől jobbra található megfelelő jelölőnégyzetet.
Az elszívó kiválasztásakor megjelenik a Kiválasztó? mező a dokumentumterületen. A mezőben látható a kulcs neve (az elszívóhoz létrehozott név), az észlelt érték (a mező értéke a dokumentumban), az oszlop típusa, valamint az entitás kiolvasóként való kiválasztásának lehetősége.
A rendszer a kulcsnevet használja oszlopnévként, amikor a modellt egy SharePoint-tárra alkalmazza. Ha szeretné, módosíthatja a kulcs nevét, hogy beszédesebb legyen. Az oszloptípus azt mutatja, hogyan jelennek meg az információk a tárakban. Módosíthatja az oszloptípust, hogy megjelenítse, hogyan szeretné megjeleníteni az információkat. Amikor a modellt egy tárra alkalmazza, oszlopformázással megadhatja, hogy hogyan jelenjen meg a dokumentumban.
Válassza ki a használni kívánt egyéb kinyerőket. A modellkonfigurációhoz további elemezendő fájlokat is hozzáadhat.
Kinyerő átnevezése
Az elszívókat háromféleképpen nevezheti át:
Az elszívó részletei lap dokumentumterületén válassza ki az entitásmezőt. A Kiválasztó? mezőben a Kulcsnév mezőben adjon új nevet az elszívónak.
Az elszívó részletei lap Kinyerők paneljén válassza ki az átnevezni kívánt kiszívót, majd válassza az Átnevezés lehetőséget.
A modell kezdőlapján, az Kinyerők szakaszban válassza ki az átnevezni kívánt kinyerőt, majd válassza az Átnevezés lehetőséget.
Oldaltartomány beállítása feldolgozáshoz
Ebben a modellben megadhatja, hogy a teljes fájl helyett egy fájl oldaltartományát dolgozza fel. Az Kinyerők panel Oldaltartomány szakaszában válassza ki a feldolgozni kívánt lapot. Alapértelmezés szerint az Oldaltartomány beállítás üres. Ha nincs megadva oldaltartomány, a teljes dokumentum feldolgozásra kerül. További információ: Oldaltartomány beállítása adott oldalakból származó információk kinyeréséhez.
Dokumentum nyelvének észlelése
Ebben a modellben észlelheti a dokumentum nyelvét, és kinyerheti egy oszlopba. Az Extractors panel Nyelvfelismerés szakaszában kapcsolja be a nyelvfelismerést. Az észlelt nyelv ISO-kódját jeleníti meg.
A nyelvfelismerést a modell Modellbeállítások paneljén is be- és kikapcsolhatja.
4. lépés: A modell alkalmazása
A módosítások mentéséhez és a modell kezdőlapjára való visszatéréshez az Kinyerők panelen válassza a Mentés és kilépés lehetőséget.
Ha készen áll a modell egy tárra való alkalmazására, a dokumentumterületen válassza a Tovább gombot. A Hozzáadás a tárhoz panelen válassza ki azt a tárat, amelyhez hozzá szeretné adni a modellt, majd válassza a Hozzáadás lehetőséget.
A fájltípusokkal, nyelvekkel, optikai karakterfelismeréssel és az előre összeállított modell egyéb szempontjaival kapcsolatos információkért lásd: A SharePoint előre összeállított dokumentumfeldolgozásának követelményei és korlátozásai.