Pdf na plik tekstowy - pytanko

Trwa praca nad tekstem Louise Michell. Mam tekst w PDF, za pomoca programu przerobiłem go na plik tekstowy.

I teraz ten tekst w tym pliku tekstowym jest jak w PDF, to znaczy szerokość jest taka sama, jest bardzo dużo rozdzielonych słów (z myślnikami, gdy na końcu linijki słowo się nie kończy, na przykład rozdzie- lonych).

Czy da się to jakoś automatycznie pousuwać, czy trzeba ręcznie? A może istnieje jakiś lepszy pogram, który od razu to zrobi?

deck5955,

Może pomogą Ci te narzędzia: tinywow.com/tools

wacpan,
@wacpan@szmer.info avatar

Hej @dj1936 , aktualnie w takich zagadnieniach siedzę – podeślij ten PDF albo plik tekstowy, spróbuję pomóc!

@pfm: jeśli jakiś pdftotext rygorystycznie trzyma się tzw. dywizów (łączników, “myślników”, “-”) zamiast myślników (“–”, “—”), to tzw. wyrażeniem regularnym, regexem PCRE i substytucją: s/(b)-n(b)/12/gmu: regex101.com/r/BJMjRG/1.

pfm,

Posklejać to automatycznie może być ciężko… Czy takie rozdzielone słowa mają myślniki w miejscu podziału? To by pomogło.

dj1936,
!deleted2556 avatar

tak

  • Wszystkie
  • Subskrybowane
  • Moderowane
  • Ulubione
  • krakow
  • zapytajszmer@szmer.info
  • muzyka
  • test1
  • Blogi
  • Spoleczenstwo
  • fediversum
  • FromSilesiaToPolesia
  • rowery
  • Technologia
  • slask
  • lieratura
  • informasi
  • retro
  • sport
  • nauka
  • Gaming
  • esport
  • Psychologia
  • Pozytywnie
  • motoryzacja
  • niusy
  • tech
  • giereczkowo
  • ERP
  • antywykop
  • Cyfryzacja
  • zebynieucieklo
  • warnersteve
  • Wszystkie magazyny