Pomozte stahovat matriky

Help download parish registers

Dobrovolnický systém pro stahování matrik z Moravského zemského archivu

Moravský zemský archiv (MZA) digitalizuje historické matriky, ale neumožňuje pohodlné stahování v plné kvalitě. Náš systém to řeší — rozloží stahování na více dobrovolníků, z nichž každý používá vlastní IP adresu a stáhne pár stránek denně.

The Moravian Provincial Archive (MZA) digitizes historical parish registers but doesn't allow convenient full-quality downloads. Our system distributes the downloading across volunteers, each using their own IP address, downloading just a few pages per day.

Proč to děláme / Why we do this

1. Ochrana kulturního dědictví před výpadky

Digitalizované matriky jsou dnes přístupné výhradně přes webový prohlížeč MZA. Jakýkoli technický výpadek, migrace systému nebo změna přístupových podmínek může tisíce historických záznamů znepřístupnit. Praxe ukazuje, že k tomu dochází — archivní systémy procházejí pravidelnými úpravami a přestavbami. Distribuovaná záloha v plné kvalitě zajišťuje, že jednou digitalizované záznamy zůstanou trvale dostupné pro badatele.

2. Lingvistická a databázová analýza záznamů

Prohlížeč MZA slouží k vizuálnímu prohlížení jednotlivých stránek, ale nenabízí žádné API, fulltextové vyhledávání ani strojově čitelný výstup. Pro systematický genealogický výzkum je nutné záznamy extrahovat pomocí OCR (rozpoznávání rukopisného textu) a následně podrobit jazykové analýze — identifikovat jména, příjmení, čísla domů, data a rodinné vztahy. Výstupem je strukturovaná databáze osob a domácností v konkrétních obcích, která umožňuje rekonstruovat demografické a příbuzenské sítě napříč generacemi. Obdobné přístupy využívají projekty jako FamilySearch Indexing nebo Transkribus (University of Innsbruck).

3. DNA genealogie: časově kritický výzkum

Konečným cílem je propojit matriční záznamy s žijícími potomky a nabídnout jim genetické testování (autozomální DNA, Y-DNA, mtDNA). Genealogická DNA analýza dokáže potvrdit příbuzenské linie, identifikovat dosud neznámé větve rodiny a přispět k pochopení migrací moravského obyvatelstva. Klíčový problém je čas — nejstarší generace, která ještě pamatuje rodinnou historii a jejíž DNA nese unikátní informace o předcích, postupně odchází. Ruční zpracování matrik (čtení stránku po stránce, přepisování záznamů) je pro rozsah desítek tisíc stran nereálné. Automatizace celého řetězce — od stažení přes OCR po databázovou analýzu — je jedinou cestou, jak stihnout oslovit správné lidi, dokud je to ještě možné.

1. Cultural heritage preservation: Digitized registers are currently accessible only through MZA's web viewer. Any technical outage, system migration, or access policy change can render thousands of historical records unavailable. A distributed full-quality backup ensures that once-digitized records remain permanently accessible to researchers.

2. Linguistic and database analysis: MZA's viewer allows visual browsing of individual pages but offers no API, full-text search, or machine-readable output. Systematic genealogical research requires OCR extraction of handwritten records followed by linguistic analysis — identifying names, surnames, house numbers, dates, and family relationships. The result is a structured database of persons and households in specific parishes, enabling reconstruction of demographic and kinship networks across generations. Similar approaches are used by projects like FamilySearch Indexing and Transkribus (University of Innsbruck).

3. DNA genealogy — time-critical research: The ultimate goal is to connect parish records with living descendants and offer them genetic testing (autosomal DNA, Y-DNA, mtDNA). Genealogical DNA analysis can confirm lineages, identify previously unknown branches, and contribute to understanding Moravian population migrations. The critical problem is time — the oldest generation that still remembers family history and whose DNA carries unique ancestral information is passing away. Manual processing of registers (reading page by page, transcribing records) is unfeasible for tens of thousands of pages. Automating the entire pipeline — from download through OCR to database analysis — is the only way to reach the right people while it's still possible.

Rychly start / Quick start

rarr; · 📊 Stav systému / System status dashboard · Prohlížeč matrik / Parish register browser


Jak to funguje / How it works

  1. Na vašem zařízení běží malý worker (skript nebo rozšíření prohlížeče)
  2. Worker se zeptá koordinátoru na práci — dostane jednu stránku ke stažení
  3. Stáhne obrázek přímo z MZA a odešle ho na náš server
  4. Počká 45–90 sekund a opakuje

Žádné heslo, žádná registrace. Worker se zaregistruje automaticky.

No password, no registration. The worker auto-registers on first contact.


Způsoby zapojení / Ways to help

🖥️ Počítač (Mac, Linux, Windows) snadné

Stačí Python 3.8+ (většina systémů ho má)

curl -sL https://g.book.cz/mza-worker.py | python3

Na Windows (PowerShell):

Invoke-WebRequest https://g.book.cz/mza-worker.py -OutFile mza-worker.py
python mza-worker.py

Automaticky doinstaluje potřebné knihovny (httpx, Pillow). Stahuje přes HTTP/2.

📱 Android telefon (Termux) snadné

  1. Nainstalujte Termux z F-Droid (NE z Play Store — tam je zastaralý)
  2. V Termuxu spusťte:
pkg install python
curl -sL https://g.book.cz/mza-worker.py | python3

Funguje na pozadí, dokud necháte Termux otevřený. Tip: v nastavení Termuxu zapněte Acquire Wakelock (notifikace → dlouhý stisk), aby Android neuspával proces.

🍎 iPhone / iPad (a-Shell) střední

  1. Nainstalujte a-Shell z App Store (zdarma)
  2. Spusťte:
pip install httpx[http2] Pillow
python3 -c "import urllib.request; urllib.request.urlretrieve('https://g.book.cz/mza-worker.py', 'w.py')"
python3 w.py

🌐 Rozšíření do prohlížeče (Chrome, Edge, Brave) střední

  1. Stáhněte mza-helper-extension.zip a rozbalte
  2. Otevřete chrome://extensions/
  3. Zapněte Režim pro vývojáře (vpravo nahoře)
  4. Klikněte Načíst rozbalené rozšíření a vyberte rozbalený adresář
  5. Rozšíření se spustí automaticky — ikona v liště ukazuje stav

Rozšíření běží na pozadí a stahuje přímo přes prohlížeč. Funguje i na Chromium-based prohlížečích.


Bezpečnost a limity / Safety & limits


Často kladené dotazy / FAQ

Kolik dat to spotřebuje?

Jedna stránka matriky je cca 5–8 MB. Za den worker stáhne max 500 MB. Při typickém provozu 200–400 MB.

Můžu to nechat běžet přes noc?

Ano, worker běží nepřetržitě. Když dojdou úkoly, čeká a ptá se znovu každou minutu.

Jak poznám, že to funguje?

Worker vypisuje každou staženou stránku do terminálu. Celkový stav vidíte na dashboardu.

Mohu worker kdykoli zastavit?

Ano, stačí Ctrl+C. Nedokončená stránka se automaticky přeřadí jinému dobrovolníkovi.

Co je ten Tor a proč se instaluje?

Po vyčerpání denní kvóty (nebo při blokaci IP) worker automaticky spustí Tor — anonymní síť, která směruje provoz přes jiné IP adresy. Díky tomu může worker pokračovat ve stahování i po dosažení limitu. Tor se nainstaluje automaticky při prvním přepnutí: na macOS přes brew, na Linuxu přes apt/dnf (může vyžadovat heslo pro sudo), v Termuxu přes pkg. Stahování přes Tor je pomalejší (cca 20–30 sekund na stránku), ale umožňuje stáhnout navíc desítky stránek denně.

After exhausting the daily quota (or if the IP is blocked), the worker automatically starts Tor — an anonymity network that routes traffic through different IP addresses. Tor is auto-installed on first use: via brew on macOS, apt/dnf on Linux (may require sudo password), pkg on Termux. Downloading through Tor is slower (~20–30s per page) but allows additional pages beyond the daily limit.