Ergebnis 1 bis 1 von 1

Thema: Crawler: fsockopen und offene PDFs

      
  1. #1
    Forum Aktivist
    Registriert seit
    26.06.2006
    Beiträge
    66

    Crawler: fsockopen und offene PDFs

    Hallo miteinander,

    ich habe die Erweiterungen Crawler und indexed_search erfolgreich auf meinem TYPO3 4.4.4 zum Laufen gebracht. Allerdings gibt es zwei Probleme, die evt. sogar miteinander zusammenhängen.

    Wenn ich den Cronjob nachts für den Crawler laufen lasse, erhalte ich im Protokoll (Logs) im BE folgende Fehlermeldung für meinen user _cli_crawler:

    Code:
    Core: Error handler (BE): PHP Warning: fsockopen() [<a href='function.fsockopen'>function.fsockopen</a>]: unable to connect to :80 (php_network_getaddresses: getaddrinfo failed: Name or service not known) in /pfad/zur/typo3conf/ext/crawler/class.tx_crawler_lib.php line 1275
    Dazu habe ich wie hier beschrieben die BaseURL der TSConfig im root auf localhost gesetzt. Was leider auch nix gebracht hat. Meine Frage ist, ob diese Meldung bei euch auch im Protokoll angezeigt wird? Die Konfiguration im root schaut dabei wie folgt aus:

    PHP-Code:
    tx_crawler.crawlerCfg.paramSets.test =
    tx_crawler.crawlerCfg.paramSets.test {
        
    cHash 1
        procInstrFilter 
    tx_indexedsearch_reindextx_indexedsearch_crawler,tx_cachemgm_recache
        baseUrl 
    http://www.meine-domain.de
    }

    #set up a crawl for users who have group id of 1
    tx_crawler.crawlerCfg.paramSets.grp1 tx_crawler.crawlerCfg.paramSets.test
    tx_crawler
    .crawlerCfg.paramSets.grp1{
        
    userGroups 1

    Weiterhin sollen external documents, genauer gesagt PDFs, indexiert werden. Zu diesem Zweck habe ich eine "Indexing configurations" vom Typ "Filepath on server" im root der Seite auf das Verzeichnis gelegt, in dem sich meine PDFs befinden.

    Das Einlesen von PDFs erfolgt zum Großteil, mit ein paar Ausnahmen. Stellenweise stelle ich dann fest, dass auf manchen Seiten noch unbearbeitete Jobaufträge in der Queue "hängen". Erst, wenn ich manuell auf das Read Symbol (im "Crawler log" unter dem Submodul Info) klicke, werden z.B. die auf dieser Seite verlinkten uneingelesenen PDFs auch indexiert. Hat da jemand vielleicht ähnliche Erfahrungen gemacht?

    Eigentlich sollten doch alle Aufträge in der Queue abgearbeitet werden und nicht stellenweise einige ausgelassen werden.

    Besten Dank für eure Antwort im Voraus

    Rob
    Geändert von rob-master (05.03.2011 um 06:12 Uhr)

 

 

Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)

Facebook Kommentare

Ähnliche Themen

  1. Crawler mit Hook erweitern (Secure Download)
    Von rob-master im Forum Extension modifizieren oder neu erstellen
    Antworten: 0
    Letzter Beitrag: 25.02.2011, 11:18
  2. PDFs in indexed_search
    Von nebidox im Forum Indexed Search
    Antworten: 0
    Letzter Beitrag: 21.01.2011, 08:48
  3. crawler und indexed_search
    Von Zarathustra im Forum TYPO3 4.x Fragen und Probleme
    Antworten: 4
    Letzter Beitrag: 13.08.2010, 09:42
  4. Howto Typo3 4.3.0 + crawler 3.0.5 + indexed search
    Von medienlounge im Forum News (tt_news, mininews und Co)
    Antworten: 1
    Letzter Beitrag: 10.08.2010, 13:27
  5. Indexed Search, Crawler und mehrere Nutzergruppen
    Von Quietscheente im Forum Indexed Search
    Antworten: 0
    Letzter Beitrag: 18.12.2009, 09:10

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •  

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74