Scraping Knihovny¶
Přehled instalovaných scraperů¶
Máme nainstalované následující scraping knihovny pro různé use casy.
🥇 crawl4ai (NEJLEPŠÍ PRO AI)¶
Status: ✅ PLNĚ FUNKČNÍ Verze: 0.7.8 GitHub: https://github.com/unclecode/crawl4ai (58.4k ⭐) Instalace: /opt/czechai-tools/scrapers/crawl4ai/ + venv
Proč je nejlepší?¶
- LLM-ready output - čistý Markdown optimalizovaný pro AI
- 58.4k stars - nejpopulárnější open-source crawler
- Playwright support, JS execution
- Inteligentní content filtering (BM25 algorithm)
- Caching, session management, proxy support
- Zero gatekeeping - žádné rate limity, žádné subscriptions
API Endpoint¶
URL: https://router.czechai.io/v1/crawl4ai Method: POST Auth: X-API-Key: demo-key-123
Parametry: - url (required) - URL k scrapování - format - markdown (default), html, json - cache - použít cache (default: true) - wait_for - CSS selector pro čekání - css_selector - CSS selector pro extrakci
Response:
{
"success": true,
"url": "https://example.com",
"content": "# Example Domain\nThis domain is for use...",
"metadata": {
"title": "Example Domain",
"description": null
}
}
🔥 ScrapeGraphAI¶
Status: ✅ FUNKČNÍ Verze: 1.69.0 API Endpoint: https://router.czechai.io/v1/scrape
LLM-powered web scraping s GPT modely.
🛡️ Scrapling¶
Status: ✅ FUNKČNÍ Verze: 0.3.12 API Endpoint: https://router.czechai.io/v1/scrape/adaptive
Adaptivní scraping s anti-bot ochranou.
🕷️ Scrapy¶
Status: ✅ FUNKČNÍ Verze: 2.13.4 API Endpoint: https://router.czechai.io/v1/scrapy/crawl
Spider-based crawling framework.
🎭 Playwright¶
Status: ✅ FUNKČNÍ Verze: 1.57.0 API Endpoints: - https://router.czechai.io/v1/playwright/screenshot - Screenshot URL - https://router.czechai.io/v1/playwright/pdf - URL → PDF
🔥 Firecrawl¶
Status: ✅ FUNKČNÍ Verze: 4.12.0 API Endpoint: https://router.czechai.io/v1/firecrawl
📋 Srovnání¶
| Knihovna | Stars | Use Case | Output |
|---|---|---|---|
| crawl4ai | 58.4k | LLM integration, AI pipelines | Clean Markdown |
| ScrapeGraphAI | - | Strukturovaná data s GPT | JSON |
| Scrapling | - | Anti-bot, dynamické stránky | HTML/Text |
| Scrapy | - | Velké crawly, spidery | Structured data |
| Playwright | - | Browser automation, screenshots | PNG/PDF |
| Firecrawl | - | Rychlé scraping | JSON |
🎯 Kdy použít co?¶
| Situace | Doporučení |
|---|---|
| AI/LLM integrace | ✅ crawl4ai |
| Strukturovaná data z webu | ScrapeGraphAI |
| Anti-bot, cloudflare | Scrapling |
| Velký crawl (100k+ stránek) | Scrapy |
| Screenshot/PDF | Playwright |
| Rychlý test | Firecrawl |
Poslední aktualizace: 2026-01-11