Scraping Knihovny

Přehled instalovaných scraperů

Máme nainstalované následující scraping knihovny pro různé use casy.

🥇 crawl4ai (NEJLEPŠÍ PRO AI)

Status: ✅ PLNĚ FUNKČNÍ Verze: 0.7.8 GitHub: https://github.com/unclecode/crawl4ai (58.4k ⭐) Instalace: /opt/czechai-tools/scrapers/crawl4ai/ + venv

Proč je nejlepší?

LLM-ready output - čistý Markdown optimalizovaný pro AI
58.4k stars - nejpopulárnější open-source crawler
Playwright support, JS execution
Inteligentní content filtering (BM25 algorithm)
Caching, session management, proxy support
Zero gatekeeping - žádné rate limity, žádné subscriptions

API Endpoint

URL: https://router.czechai.io/v1/crawl4ai Method: POST Auth: X-API-Key: demo-key-123

Parametry: - url (required) - URL k scrapování - format - markdown (default), html, json - cache - použít cache (default: true) - wait_for - CSS selector pro čekání - css_selector - CSS selector pro extrakci

Response:

{
  "success": true,
  "url": "https://example.com",
  "content": "# Example Domain\nThis domain is for use...",
  "metadata": {
    "title": "Example Domain",
    "description": null
  }
}

🔥 ScrapeGraphAI

Status: ✅ FUNKČNÍ Verze: 1.69.0 API Endpoint: https://router.czechai.io/v1/scrape

LLM-powered web scraping s GPT modely.

🛡️ Scrapling

Status: ✅ FUNKČNÍ Verze: 0.3.12 API Endpoint: https://router.czechai.io/v1/scrape/adaptive

Adaptivní scraping s anti-bot ochranou.

🕷️ Scrapy

Status: ✅ FUNKČNÍ Verze: 2.13.4 API Endpoint: https://router.czechai.io/v1/scrapy/crawl

Spider-based crawling framework.

🎭 Playwright

Status: ✅ FUNKČNÍ Verze: 1.57.0 API Endpoints: - https://router.czechai.io/v1/playwright/screenshot - Screenshot URL - https://router.czechai.io/v1/playwright/pdf - URL → PDF

🔥 Firecrawl

Status: ✅ FUNKČNÍ Verze: 4.12.0 API Endpoint: https://router.czechai.io/v1/firecrawl

📋 Srovnání

Knihovna	Stars	Use Case	Output
crawl4ai	58.4k	LLM integration, AI pipelines	Clean Markdown
ScrapeGraphAI	-	Strukturovaná data s GPT	JSON
Scrapling	-	Anti-bot, dynamické stránky	HTML/Text
Scrapy	-	Velké crawly, spidery	Structured data
Playwright	-	Browser automation, screenshots	PNG/PDF
Firecrawl	-	Rychlé scraping	JSON

🎯 Kdy použít co?

Situace	Doporučení
AI/LLM integrace	✅ crawl4ai
Strukturovaná data z webu	ScrapeGraphAI
Anti-bot, cloudflare	Scrapling
Velký crawl (100k+ stránek)	Scrapy
Screenshot/PDF	Playwright
Rychlý test	Firecrawl

Poslední aktualizace: 2026-01-11