Přeskočit obsah

Scraping Knihovny

Přehled instalovaných scraperů

Máme nainstalované následující scraping knihovny pro různé use casy.

🥇 crawl4ai (NEJLEPŠÍ PRO AI)

Status: ✅ PLNĚ FUNKČNÍ Verze: 0.7.8 GitHub: https://github.com/unclecode/crawl4ai (58.4k ⭐) Instalace: /opt/czechai-tools/scrapers/crawl4ai/ + venv

Proč je nejlepší?

  • LLM-ready output - čistý Markdown optimalizovaný pro AI
  • 58.4k stars - nejpopulárnější open-source crawler
  • Playwright support, JS execution
  • Inteligentní content filtering (BM25 algorithm)
  • Caching, session management, proxy support
  • Zero gatekeeping - žádné rate limity, žádné subscriptions

API Endpoint

URL: https://router.czechai.io/v1/crawl4ai Method: POST Auth: X-API-Key: demo-key-123

Parametry: - url (required) - URL k scrapování - format - markdown (default), html, json - cache - použít cache (default: true) - wait_for - CSS selector pro čekání - css_selector - CSS selector pro extrakci

Response:

{
  "success": true,
  "url": "https://example.com",
  "content": "# Example Domain\nThis domain is for use...",
  "metadata": {
    "title": "Example Domain",
    "description": null
  }
}


🔥 ScrapeGraphAI

Status: ✅ FUNKČNÍ Verze: 1.69.0 API Endpoint: https://router.czechai.io/v1/scrape

LLM-powered web scraping s GPT modely.


🛡️ Scrapling

Status: ✅ FUNKČNÍ Verze: 0.3.12 API Endpoint: https://router.czechai.io/v1/scrape/adaptive

Adaptivní scraping s anti-bot ochranou.


🕷️ Scrapy

Status: ✅ FUNKČNÍ Verze: 2.13.4 API Endpoint: https://router.czechai.io/v1/scrapy/crawl

Spider-based crawling framework.


🎭 Playwright

Status: ✅ FUNKČNÍ Verze: 1.57.0 API Endpoints: - https://router.czechai.io/v1/playwright/screenshot - Screenshot URL - https://router.czechai.io/v1/playwright/pdf - URL → PDF


🔥 Firecrawl

Status: ✅ FUNKČNÍ Verze: 4.12.0 API Endpoint: https://router.czechai.io/v1/firecrawl


📋 Srovnání

Knihovna Stars Use Case Output
crawl4ai 58.4k LLM integration, AI pipelines Clean Markdown
ScrapeGraphAI - Strukturovaná data s GPT JSON
Scrapling - Anti-bot, dynamické stránky HTML/Text
Scrapy - Velké crawly, spidery Structured data
Playwright - Browser automation, screenshots PNG/PDF
Firecrawl - Rychlé scraping JSON

🎯 Kdy použít co?

Situace Doporučení
AI/LLM integrace ✅ crawl4ai
Strukturovaná data z webu ScrapeGraphAI
Anti-bot, cloudflare Scrapling
Velký crawl (100k+ stránek) Scrapy
Screenshot/PDF Playwright
Rychlý test Firecrawl

Poslední aktualizace: 2026-01-11