Reality Scrapery
Přehled
Systém pro stahování realitních inzerátů z českých portálů.
Databáze: /opt/czechai-cockpit-full/stat_realit.db
Tabulka: stat_realit
Aktuální stav (2026-01-06)
| Metrika | Hodnota |
|---|---|
| Celkem záznamů | 37,755 |
| Validní URL | 36,836 (97.6%) |
| S cenou | 24,999 (66%) |
| S GPS | 23,538 (62%) |
| S price_per_m2 | 607 |
Portály
| Portál | Záznamů | % |
|---|---|---|
| sreality | 20,536 | 56% |
| realitymixcz | 5,945 | 16% |
| realitycz | 4,758 | 13% |
| annoncecz | 1,998 | 5% |
| reality_idnes | 782 | 2% |
Scrapery
Sreality Scraper
Soubor: /opt/reality-scraper/scraper_v2_fixed.py
# Spuštění
cd /opt/reality-scraper && python3 scraper_v2_fixed.py
# Test mode (1 region, 1 typ)
python3 scraper_v2_fixed.py --test
Features: - Validace URL před uložením (HEAD request) - Správný /detail/ formát URL - Výpočet price_per_m2 - Normalizace property_type
Avizo Scraper
Soubor: /opt/czechai-tools/scrapers/avizo_scraper.py
# Spuštění
cd /opt/czechai-tools/scrapers && python3 avizo_scraper.py --limit 500
Čištění mrtvých URL
Soubor: /opt/reality-scraper/cleanup_dead_urls.py
# Zkontroluje 1000 náhodných URL a označí mrtvé
cd /opt/reality-scraper && python3 cleanup_dead_urls.py
Changelog
2026-01-06 - Kompletní audit a oprava
Problém: - 42% sreality mělo mrtvé URL - 25% avizo mělo špatná data (kategorie místo inzerátů) - ~50% záznamů nemělo cenu/GPS
Opravy: 1. ✅ SREALITY - opraven URL formát, přidána validace 2. ✅ AVIZO - přepsán na stahování detail stránek 3. ✅ DB vyčištěna z 49,442 na 37,755 záznamů 4. ✅ 65.6% mrtvých URL označeno jako nevalidní
Poslední aktualizace: 2026-01-06
🏠 eDesky API - Prodeje Nemovitostí (2026-02-05)
Konfigurace
| Parametr | Hodnota |
|---|---|
| API URL | |
| API Key | |
| Uživatel | |
| Dokumentace | https://docs.edeskyv1.apiary.io/ |
Použití
# Vyhledání dokumentů
curl -k "https://edesky.cz/api/v1/documents?keywords=prodej+pozemku&api_key=vYpegD3c1A1yS26P45bDqYpQSACDVPhv"
# Textová verze dokumentu (obsahuje URL na PDF)
curl -k "https://edesky.cz/dokument/{edesky_id}.txt"
Klíčová slova
- prodej pozemku (539 docs)
- prodej bytu (7 docs)
- prodej domu (10 docs)
- prodej nemovitosti (41 docs)
- záměr prodeje (580 docs)
- dražba nemovitosti (22 docs)
Zdroje PDF
- Azure blob -
- Původní obecní web - extrahovat z verze
- Textová verze - fallback s OCR textem
Skripty
- Lokální:
D:\CZECHAI_REALITY_MASTER\PRODUCTION\STAT\SCRAPER_STACK\PRODEJE_NEMOVITOSTI_BRNO\scripts\stahni_pdf_api.py - Výstup: `C:\Users\info\Downloads\eDesky_Prodeje_Nemovitosti\PDF\" (307 PDF staženo)
Rate Limits
- Max 200 dokumentů na stránku
- Doporučená pauza: 1-2 sekundy mezi requesty
- HTTP 401 = rate limit překročen
🏠 eDesky API - Prodeje Nemovitostí (2026-02-05)
Konfigurace
| Parametr | Hodnota |
|---|---|
| API URL | https://edesky.cz/api/v1/documents |
| API Key | vYpegD3c1A1yS26P45bDqYpQSACDVPhv |
| Uživatel | info@bohemiashield.cz |
| Dokumentace | https://docs.edeskyv1.apiary.io/ |
Použití
# Vyhledání dokumentů
curl -k "https://edesky.cz/api/v1/documents?keywords=prodej+pozemku&api_key=API_KEY"
# Textová verze dokumentu (obsahuje URL na PDF)
curl -k "https://edesky.cz/dokument/{edesky_id}.txt"
Klíčová slova
- prodej pozemku (539 docs)
- prodej bytu (7 docs)
- prodej domu (10 docs)
- prodej nemovitosti (41 docs)
- záměr prodeje (580 docs)
- dražba nemovitosti (22 docs)
Zdroje PDF
- Azure blob -
edesky.blob.core.windows.net/attachments/... - Původní obecní web - extrahovat z
.txtverze - Textová verze - fallback s OCR textem
Skripty
- Lokální:
D:\CZECHAI_REALITY_MASTER\PRODUCTION\STAT\SCRAPER_STACK\PRODEJE_NEMOVITOSTI_BRNO\scripts\stahni_pdf_api.py - Výstup:
C:\Users\info\Downloads\eDesky_Prodeje_Nemovitosti\PDF\(307 PDF staženo)
Rate Limits
- Max 200 dokumentů na stránku
- Doporučená pauza: 1-2 sekundy mezi requesty
- HTTP 401 = rate limit překročen