Compartilhar via


Criar um extrator para processamento de documentos no SharePoint

Aplica-se a: ✓ Processamento de documentos não estruturados



Antes ou depois de criar um modelo de classificador para automatizar a identificação e classificação de tipos de documentos específicos, você pode optar por adicionar extratores ao seu modelo para extrair informações específicas desses documentos. Por exemplo, você pode desejar que seu modelo não apenas identifique todos os documentos de Renovação do Contrato adicionados à sua biblioteca de documentos, mas também exiba a Data de Início do Serviço para cada documento como um valor de coluna na biblioteca de documentos.

É necessário criar um extrator para cada entidade no documento que se deseja extrair. No nosso exemplo, queremos extrair a Data de Início do Serviço para cada documento de Renovação do Contrato identificado pelo modelo. Queremos poder ver uma vista na biblioteca de documentos de todos os documentos de Renovação do Contrato , com uma coluna que mostra o valor data de Início do Serviço de cada documento.

Observação

Para criar um extrator, você utiliza os mesmos arquivos que carregou anteriormente para treinar o classificador.

Nomeie seu extrator

  1. Na home page do modelo, no mosaico Criar e preparar extratores , selecione Preparar extrator.

  2. Na tela Novo extrator de entidade, digite o nome do seu extrator no campo Novo nome do extrator. Por exemplo, nomeie a Data de Início do Serviço se você quiser extrair a data de início do serviço de cada documento de Renovação do Contrato. Também é possível optar por reutilizar uma coluna anteriormente criada (por exemplo, uma coluna de metadados gerenciados).

    Por predefinição, o tipo de coluna é Uma linha de texto. Se quiser alterar o tipo de coluna, selecione Definições avançadas>Tipo de coluna e, em seguida, selecione o tipo que pretende utilizar.

    Captura de ecrã da parte Definições avançadas do painel Novo extrator de entidades a mostrar a opção Tipo de coluna.

    Observação

    Para extratores com o tipo de coluna Linha única de texto, o limite máximo de carateres é 255. Todos os carateres que selecionar que excedam o limite são truncados. Para selecionar mais de 255 carateres, selecione o tipo de coluna Múltiplas linhas de texto ao criar o extrator.

    Por predefinição, são criadas várias linhas de colunas de texto com um limite à quantidade de texto que pode ser adicionada. Neste caso, o texto extraído pode aparecer truncado. Se isto ocorrer, a definição de coluna Permitir comprimento ilimitado nas bibliotecas de documentos pode ser utilizada para remover o limite.

  3. Quando terminar, selecione Criar.

Adicione um rótulo

A próxima etapa é rotular a entidade que você deseja extrair nos seus exemplos de arquivos de treinamento.

A criação do extrator abre a página do extrator. Aqui você vê uma lista com seus arquivos de amostra, e o primeiro arquivo da lista é exibido no visualizador.

  1. No visualizador, selecione os dados que deseja extrair dos arquivos. Por exemplo, se quiser extrair a Data de Início do Serviço, realça o valor de data no primeiro ficheiro (segunda-feira, 14 de outubro de 2022). e, em seguida, selecione Guardar. Você deve ver a exibição do valor do arquivo na lista de exemplos Rotulados, na coluna Rótulo.

  2. Selecione Ficheiro seguinte para guardar automaticamente e abrir o ficheiro seguinte na lista no visualizador. Ou selecione Salvar e depois selecione outro arquivo da lista Exemplos rotulados.

  3. No visualizador, repita as etapas 1 e 2 e, em seguida, repita até salvar o rótulo em todos os cinco arquivos.

    Definições avançadas.

Uma vez rotulados os cinco arquivos, um banner de notificação informa que você deve passar para o treinamento. É possível escolher entre etiquetar mais documentos ou avançar para o treinamento.

Usar a ferramenta Procurar para pesquisar seu arquivo

Você pode usar o recurso Encontrar para procurar uma entidade em seu documento que você deseja rotular.

Localizar no arquivo.

A funcionalidade Localizar é útil se estiver a procurar um documento grande ou se existirem várias instâncias da entidade no documento. Se você encontrar várias instâncias, poderá selecionar a de que precisa nos resultados da pesquisa para ir até esse local no visualizador para rotulá-la.

Adicione uma explicação

Para o nosso exemplo, vamos criar uma explicação que fornece uma sugestão sobre o próprio formato da entidade e as variações que pode ter nos documentos de exemplo. Por exemplo, um valor de data pode estar em vários formatos diferentes, tais como:

  • 10/14/2022
  • 14 de outubro de 2022
  • Segunda, outubro 14, 2022

Para ajudar a identificar a Data de Início do Serviço, pode criar uma explicação de padrão.

  1. Na seção Explicação, selecione Novo e digite um nome (por exemplo, Data).
  2. Para Tipo, selecione Lista de padrões.
  3. Para Valor, forneça a variação de data conforme aparecem nos arquivos de amostra. Por exemplo, se você tem formatos de data que aparecem como 0/00/0000, digite quaisquer variações que aparecem em seus documentos, como por exemplo:
    • 0/0/0000
    • 0/00/0000
    • 00/0/0000
    • 00/00/0000
  4. Selecione Salvar.

Observação

Para obter mais informações sobre os tipos de explicação, consulte Tipos de explicação.

Utilizar a biblioteca de explicações

Para criar explicações para itens como datas, é mais fácil utilizar a biblioteca de explicações do que introduzir manualmente todas as variações. A biblioteca de explicação é um conjunto de frases predefinidas e explicações de padrões. A biblioteca tenta fornecer todos os formatos para listas de expressões ou padrões comuns, como datas, números de telefone, códigos postais e muitos outros.

Para o exemplo data de início do serviço , é mais eficiente utilizar a explicação pré-criada para Data na biblioteca de explicações:

  1. Na seção Explicação, selecione Novo, e então selecione Na biblioteca de explicações.

  2. Na biblioteca de explicações, selecione Data. Você pode ver todas as variações de data que são reconhecidas.

  3. Clique em Adicionar.

    Biblioteca de explicações.

  4. Na página Criar uma explicação, a informação Data da biblioteca de explicações preenche automaticamente os campos. Selecione Salvar.

    Data.

Treinar o modelo

Guardar a sua explicação inicia a preparação. Se o modelo tiver informações suficientes para extrair os dados dos seus ficheiros de exemplo etiquetados, verá cada ficheiro etiquetado com Correspondência.

Correspondência.

Se a explicação não tiver informações suficientes para localizar os dados que pretende extrair, cada ficheiro será etiquetado com Erro de Correspondência. Pode selecionar Ficheiros sem correspondência para ver mais informações sobre o motivo pelo qual ocorreu um erro de correspondência.

Adicione outra explicação

Muitas vezes, o erro de correspondência é uma indicação de que a explicação que fornecemos não forneceu informações suficientes para extrair o valor da data de início do serviço para corresponder aos nossos ficheiros etiquetados. Poderá ter de editá-lo ou adicionar outra explicação.

Para nosso exemplo, observe que o texto data de Início do Serviço de sempre precede o valor real. Para ajudar a identificar a Data de Início do Serviço, você precisa criar uma explicação de frase.

  1. Na seção Explicação, selecione Novo, e então digite um nome (por exemplo, Sequencia de Prefixo).

  2. Para o Tipo, selecione Lista de frases.

  3. Utilize a Data de Início do Serviço como o valor.

  4. Selecione Salvar.

    Sequencia de prefixo.

Treine novamente o modelo

Salvar a explicação inicia o treinamento novamente, desta vez usando as duas explicações do exemplo. Se o seu modelo tiver informações suficientes para extrair os dados dos arquivos de amostra rotulados, você verá cada arquivo rotulado com Compatível.

Se você receber novamente um Incompatível em seus arquivos rotulados, provavelmente precisará criar outra explicação para fornecer ao modelo mais informações para identificar o tipo de documento ou considerar fazer alterações nos existentes.

Teste o seu modelo

Se você receber uma compatibilidade em seus arquivos de amostra rotulados, agora você pode testar seu modelo no restante dos arquivos de amostra não rotulados. Este passo é opcional, mas útil para avaliar a "condição física" ou a preparação do modelo antes de o utilizar, ao testá-lo em ficheiros que o modelo nunca viu antes.

  1. Na home page do modelo, selecione o separador Testar . Esta ação irá executar o modelo nos seus ficheiros de exemplo sem etiqueta.

  2. Na lista Arquivos de teste, seus arquivos de exemplo são exibidos para mostrar se o modelo é capaz de extrair as informações de que você precisa. Utilize essas informações para ajudar a determinar a eficácia do seu classificador na identificação dos seus documentos.

    Teste nos seus arquivos.

Refinar ainda mais um extrator

Se tiver entidades duplicadas e quiser extrair apenas um valor ou um determinado número de valores, pode definir uma regra para especificar como pretende que seja processada. Para adicionar uma regra para refinar as informações extraídas, siga estes passos:

  1. Na home page do modelo, na secção Extratores de entidades , selecione o extrator que pretende refinar e, em seguida, selecione Refinar informações extraídas.

    Captura de ecrã da secção Extratores de entidades a mostrar a opção Refinar informações extraídas realçada.

  2. Na página Refinar informações extraídas, selecione uma das seguintes regras:

    • Manter um ou mais dos primeiros valores
    • Manter um ou mais dos últimos valores
    • Remover valores duplicados
    • Manter uma ou mais das primeiras linhas
    • Manter uma ou mais das últimas linhas

    Captura de ecrã a mostrar a página Refinar informações extraídas com as opções de regras.

  3. Introduza o número de linhas ou valores que pretende utilizar e, em seguida, selecione Refinar.

  4. Se quiser editar uma regra ao alterar o número de linhas ou valores, selecione o extrator que pretende editar, selecione Refinar informações extraídas, altere o número e, em seguida, selecione Guardar.

  5. Quando testar o extrator, poderá ver o refinamento na coluna Resultado do refinamento da lista Ficheiros de Teste .

    Lista Ficheiros de Teste a mostrar a coluna de resultados Refinamento.

  6. Se quiser eliminar uma regra de refinamento num extrator, selecione o extrator a partir do qual pretende remover a regra, selecione Refinar informações extraídas e, em seguida, selecione Eliminar.

Confira também

Criar um classificador

Tipos de explicação

Aproveitar a taxonomia do repositório de termos ao criar um extrator

Modo de acessibilidade Syntex