Scraping Knihovny
Přehled instalovaných scraperů
Máme nainstalované následující scraping knihovny pro různé use casy.
🥇 crawl4ai (NEJLEPŠÍ PRO AI)
Status: ✅ PLNĚ FUNKČNÍ
Verze: 0.7.8
GitHub: https://github.com/unclecode/crawl4ai (58.4k ⭐)
Instalace: /opt/czechai-tools/scrapers/crawl4ai/ + venv
Proč je nejlepší?
- LLM-ready output - čistý Markdown optimalizovaný pro AI
- 58.4k stars - nejpopulárnější open-source crawler
- Playwright support, JS execution
- Inteligentní content filtering (BM25 algorithm)
- Caching, session management, proxy support
- Zero gatekeeping - žádné rate limity, žádné subscriptions
API Endpoint
URL: https://router.czechai.io/v1/crawl4ai
Method: POST
Auth: X-API-Key: demo-key-123
Parametry:
- url (required) - URL k scrapování
- format - markdown (default), html, json
- cache - použít cache (default: true)
- wait_for - CSS selector pro čekání
- css_selector - CSS selector pro extrakci
Response:
{
"success": true,
"url": "https://example.com",
"content": "# Example Domain\nThis domain is for use...",
"metadata": {
"title": "Example Domain",
"description": null
}
}
🔥 ScrapeGraphAI
Status: ✅ FUNKČNÍ
Verze: 1.69.0
API Endpoint: https://router.czechai.io/v1/scrape
LLM-powered web scraping s GPT modely.
🛡️ Scrapling
Status: ✅ FUNKČNÍ
Verze: 0.3.12
API Endpoint: https://router.czechai.io/v1/scrape/adaptive
Adaptivní scraping s anti-bot ochranou.
🕷️ Scrapy
Status: ✅ FUNKČNÍ
Verze: 2.13.4
API Endpoint: https://router.czechai.io/v1/scrapy/crawl
Spider-based crawling framework.
🎭 Playwright
Status: ✅ FUNKČNÍ
Verze: 1.57.0
API Endpoints:
- https://router.czechai.io/v1/playwright/screenshot - Screenshot URL
- https://router.czechai.io/v1/playwright/pdf - URL → PDF
🔥 Firecrawl
Status: ✅ FUNKČNÍ
Verze: 4.12.0
API Endpoint: https://router.czechai.io/v1/firecrawl
📋 Srovnání
| Knihovna | Stars | Use Case | Output |
|---|---|---|---|
| crawl4ai | 58.4k | LLM integration, AI pipelines | Clean Markdown |
| ScrapeGraphAI | - | Strukturovaná data s GPT | JSON |
| Scrapling | - | Anti-bot, dynamické stránky | HTML/Text |
| Scrapy | - | Velké crawly, spidery | Structured data |
| Playwright | - | Browser automation, screenshots | PNG/PDF |
| Firecrawl | - | Rychlé scraping | JSON |
🎯 Kdy použít co?
| Situace | Doporučení |
|---|---|
| AI/LLM integrace | ✅ crawl4ai |
| Strukturovaná data z webu | ScrapeGraphAI |
| Anti-bot, cloudflare | Scrapling |
| Velký crawl (100k+ stránek) | Scrapy |
| Screenshot/PDF | Playwright |
| Rychlý test | Firecrawl |
Poslední aktualizace: 2026-01-11