• Sem upload
  • CPU local
  • Funciona offline
  • Limpeza automática
0 solicitações de saída

convert / PDF para texto

PDF para texto

Extrair o conteúdo como .txt.

Adicione pelo menos um PDF na bandeja para começar.

Metodologia e Transparência Técnica

Bibliotecas utilizadas

  • pdf-lib — Lógica principal de construção e edição de PDF
  • pdf.js — Renderização de PDF e rasterização de páginas

Estratégia de memória

Após cada operação, URL.revokeObjectURL() é chamado imediatamente. Todos os handles de documentos pdf.js são destruídos via pdfDoc.destroy(). Os workers são encerrados na conclusão ou desmontagem do componente.

Não garantimos o armazenamento permanente de arquivos (pois não os armazenamos). O processamento local de PDFs protegidos por senha não é suportado.

Key Features

  • pdf.js text layer extraction

    Extracts the embedded text layer from digitally created PDFs with full UTF-8 support.

  • One-click .txt download

    The extracted content is saved as a plain .txt file with page breaks indicated by section dividers.

  • Instant preview

    Read the extracted text in the browser before downloading to verify the content.

Common Use Cases

Handy for feeding PDF content into LLMs, building full-text search indexes, copying long passages into word processors, or auditing the accessibility of a document.

Frequently Asked Questions

Does it work on scanned PDFs?
No. Scanned PDFs contain images, not a text layer. Use an OCR tool first, then extract text here.
Is rich formatting preserved?
No. Only the raw text characters are extracted. Fonts, colours, columns, and layout are not preserved in the .txt output.
What languages are supported?
Any language present in the PDF's embedded text layer is supported — the extraction is character-level, not language-specific.