Přeskočit obsah

Reality Scrapery

Přehled

Systém pro stahování realitních inzerátů z českých portálů.

Databáze: /opt/czechai-cockpit-full/stat_realit.db
Tabulka: stat_realit

Aktuální stav (2026-01-06)

Metrika Hodnota
Celkem záznamů 37,755
Validní URL 36,836 (97.6%)
S cenou 24,999 (66%)
S GPS 23,538 (62%)
S price_per_m2 607

Portály

Portál Záznamů %
sreality 20,536 56%
realitymixcz 5,945 16%
realitycz 4,758 13%
annoncecz 1,998 5%
reality_idnes 782 2%

Scrapery

Sreality Scraper

Soubor: /opt/reality-scraper/scraper_v2_fixed.py

# Spuštění
cd /opt/reality-scraper && python3 scraper_v2_fixed.py

# Test mode (1 region, 1 typ)
python3 scraper_v2_fixed.py --test

Features: - Validace URL před uložením (HEAD request) - Správný /detail/ formát URL - Výpočet price_per_m2 - Normalizace property_type

Avizo Scraper

Soubor: /opt/czechai-tools/scrapers/avizo_scraper.py

# Spuštění
cd /opt/czechai-tools/scrapers && python3 avizo_scraper.py --limit 500

Čištění mrtvých URL

Soubor: /opt/reality-scraper/cleanup_dead_urls.py

# Zkontroluje 1000 náhodných URL a označí mrtvé
cd /opt/reality-scraper && python3 cleanup_dead_urls.py

Changelog

2026-01-06 - Kompletní audit a oprava

Problém: - 42% sreality mělo mrtvé URL - 25% avizo mělo špatná data (kategorie místo inzerátů) - ~50% záznamů nemělo cenu/GPS

Opravy: 1. ✅ SREALITY - opraven URL formát, přidána validace 2. ✅ AVIZO - přepsán na stahování detail stránek 3. ✅ DB vyčištěna z 49,442 na 37,755 záznamů 4. ✅ 65.6% mrtvých URL označeno jako nevalidní


Poslední aktualizace: 2026-01-06


🏠 eDesky API - Prodeje Nemovitostí (2026-02-05)

Konfigurace

Parametr Hodnota
API URL
API Key
Uživatel
Dokumentace https://docs.edeskyv1.apiary.io/

Použití

# Vyhledání dokumentů
curl -k "https://edesky.cz/api/v1/documents?keywords=prodej+pozemku&api_key=vYpegD3c1A1yS26P45bDqYpQSACDVPhv"

# Textová verze dokumentu (obsahuje URL na PDF)
curl -k "https://edesky.cz/dokument/{edesky_id}.txt"

Klíčová slova

  • prodej pozemku (539 docs)
  • prodej bytu (7 docs)
  • prodej domu (10 docs)
  • prodej nemovitosti (41 docs)
  • záměr prodeje (580 docs)
  • dražba nemovitosti (22 docs)

Zdroje PDF

  1. Azure blob -
  2. Původní obecní web - extrahovat z verze
  3. Textová verze - fallback s OCR textem

Skripty

  • Lokální: D:\CZECHAI_REALITY_MASTER\PRODUCTION\STAT\SCRAPER_STACK\PRODEJE_NEMOVITOSTI_BRNO\scripts\stahni_pdf_api.py
  • Výstup: `C:\Users\info\Downloads\eDesky_Prodeje_Nemovitosti\PDF\" (307 PDF staženo)

Rate Limits

  • Max 200 dokumentů na stránku
  • Doporučená pauza: 1-2 sekundy mezi requesty
  • HTTP 401 = rate limit překročen

🏠 eDesky API - Prodeje Nemovitostí (2026-02-05)

Konfigurace

Parametr Hodnota
API URL https://edesky.cz/api/v1/documents
API Key vYpegD3c1A1yS26P45bDqYpQSACDVPhv
Uživatel info@bohemiashield.cz
Dokumentace https://docs.edeskyv1.apiary.io/

Použití

# Vyhledání dokumentů
curl -k "https://edesky.cz/api/v1/documents?keywords=prodej+pozemku&api_key=API_KEY"

# Textová verze dokumentu (obsahuje URL na PDF)
curl -k "https://edesky.cz/dokument/{edesky_id}.txt"

Klíčová slova

  • prodej pozemku (539 docs)
  • prodej bytu (7 docs)
  • prodej domu (10 docs)
  • prodej nemovitosti (41 docs)
  • záměr prodeje (580 docs)
  • dražba nemovitosti (22 docs)

Zdroje PDF

  1. Azure blob - edesky.blob.core.windows.net/attachments/...
  2. Původní obecní web - extrahovat z .txt verze
  3. Textová verze - fallback s OCR textem

Skripty

  • Lokální: D:\CZECHAI_REALITY_MASTER\PRODUCTION\STAT\SCRAPER_STACK\PRODEJE_NEMOVITOSTI_BRNO\scripts\stahni_pdf_api.py
  • Výstup: C:\Users\info\Downloads\eDesky_Prodeje_Nemovitosti\PDF\ (307 PDF staženo)

Rate Limits

  • Max 200 dokumentů na stránku
  • Doporučená pauza: 1-2 sekundy mezi requesty
  • HTTP 401 = rate limit překročen