Antwort
 
LinkBack Themen-Optionen Thema bewerten Ansicht
  #1  
Alt 19.10.06, 09:33
Forum Stammgast
 
Registriert seit: 11.11.05
Beiträge: 134
lemon eine Nachricht über ICQ schicken lemon eine Nachricht über Skype™ schicken
Frage

Site Crawler will nicht crawlen


Hallo Leute!

Das Problem: ein einziges Mal hat der Crawler die Seiten indiziert, und zwar nach einem Serverneustart, aber danach konnte ich ihn nicht mehr zum Arbeiten bewegen.

Hier die Details:
Habe die letzten Stunden damit verbracht, sowohl das Manual als auch diverse Forenbeiträge zu studieren, werde aber nicht schlau daraus.

Mein Page TSConfig der Root-Seite beinhaltet folgendes:
Typoscript-Code:
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
tx_crawler.crawlerCfg.paramSets {
language = &L=[|_TABLE:pages_language_overlay;_FIELD:sys_language_uid]
language.procInstrFilter = tx_indexedsearch_reindex, tx_cachemgm_recache
language.baseUrl = http://192.168.0.200/mysite/
tt_news = &tx_ttnews[tt_news]=[_TABLE:tt_news;_PID:24]
tt_news.procInstrFilter = tx_indexedsearch_reindex, tx_cachemgm_recache
tt_news.pidsOnly = 25
tt_news.cHash = 1
tt_news.baseUrl = http://192.168.0.200/mysite/
}
Der SysFolder mit den News hat die ID 24, ID 25 ist die SingleView.

Auch habe ich einen Typo3-User mit Namen "_cli_crawler" angelegt, das stimmt doch, oder? Jedenfalls erhalte ich keinerlei Fehlermeldung beim Starten des cronjobs, trotzdem wird nicht mal eine einzige Seite indiziert.

Erst nach einem Serverneustart wird auch mit der Indizierung begonnen. Nach Abschluss der Indizierung (dauert ca. 5 Minuten) sind dann alle Seiten im Index. Allerdings wird, obwohl minütlich der crawler startet (steht jedenfalls unter "CLI status"), keine weitere Indizierung mehr vorgenommen, sodaß Änderungen nicht berücksichtigt werden.

Im crontab steht bei mir
Code:
* * * * * /opt/lampp/htdocs/mysite/typo3conf/ext/crawler/cli/crawler_cli.phpsh
Die manuelle Ausführung desselben gibt mir keinerlei Fehlermeldung zurück.

In der /var/log/messages steht nur
Code:
Oct 19 11:46:01 linux /usr/sbin/cron[4877]: (root) CMD (/opt/lampp/htdocs/mysite/typo3conf/ext/crawler/cli/crawler_cli.phpsh)
Oct 19 11:47:01 linux /usr/sbin/cron[4886]: (root) CMD (/opt/lampp/htdocs/mysite/typo3conf/ext/crawler/cli/crawler_cli.phpsh)
Oct 19 11:48:01 linux /usr/sbin/cron[4909]: (root) CMD (/opt/lampp/htdocs/mysite/typo3conf/ext/crawler/cli/crawler_cli.phpsh)
Das Skript startet also minütlich, scheint also alles ohne Fehler abzulaufen.

Außerdem habe ich auf der Root-Seite eine Indexierungseinstellung eingetragen, die 3 Ebenen berücksichten soll.

Was fehlt denn hier bloß? Einmal hat's ja geklappt, auch wenn ich nicht weiß warum?!
Und brauche ich überhaupt alle genannten Konfigurationen? Also crontab, Indexierungseinstellung und Page-TS-Config??? Oder ist da was überflüssig? Immerhin startet der crontab minütlich, die Indexierungseinstellungen stündlich.

Meine Konfiguration:
- Typo3 4.0.2
- Indexed Search 2.9.2
- Site Crawler 1.1.0

Viele Grüße aus Südtirol!

Lemon

Geändert von lemon (25.10.06 um 16:27 Uhr).
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #2  
Alt 25.10.06, 16:28
Forum Stammgast
 
Registriert seit: 11.11.05
Beiträge: 134
lemon eine Nachricht über ICQ schicken lemon eine Nachricht über Skype™ schicken

Keiner 'ne Idee?
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #3  
Alt 02.11.06, 22:18
Forum Stammgast
 
Registriert seit: 11.11.05
Beiträge: 134
lemon eine Nachricht über ICQ schicken lemon eine Nachricht über Skype™ schicken

Kommt schon, irgend jemand wird den Crawler doch benutzen, oder?
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #4  
Alt 13.11.06, 11:40
Forum Zuschauer
 
Registriert seit: 23.08.06
Alter: 31
Beiträge: 7

Hast Du es nun geschafft?

Hänge nämlich an genau dem selben Problem: Das Script wird vom Cronjob minütlich aufgerufen, aber nichts tut sich - d.h. das Last Seen im Backend verändert nicht das Datum/Zeit und es wird auch nichts gecrawlt.

Habe in den Newsgroups gelesen, dass das Script wohl beim Aufrufen der init.php an der Anmeldung zur DB scheitern soll....

Gruß
Jackzone
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #5  
Alt 13.11.06, 12:15
Benutzerbild von Cybersmog
TYPO3 Forum Team
Moderator
 
Registriert seit: 24.02.06
Alter: 31
Beiträge: 1.734

Hast du
Typoscript-Code:
1:
config.index_enable = 1
in deinem Template stehen? Das hatte ich mal vergessen und bin daran verzweifelt.

Gruß
Peter
__________________
An eagle soars, but a weasel never gets sucked into a jet engine!
TYPO3 schreibt sich TYPO3!
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #6  
Alt 13.11.06, 12:33
Forum Stammgast
 
Registriert seit: 11.11.05
Beiträge: 134
lemon eine Nachricht über ICQ schicken lemon eine Nachricht über Skype™ schicken

Ja,
Typoscript-Code:
1:
config.index_enable = 1
steht im Setup meines Root-Templates.
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #7  
Alt 13.11.06, 13:12
Forum Zuschauer
 
Registriert seit: 23.08.06
Alter: 31
Beiträge: 7

Typoscript-Code:
1:
config.index_enable = 1

ist bei mir ebenfalls eingetragen.

Ich habe nun versucht die crawler_cli.phpsh zu debuggen und habe nach jeder Zeile eine echo-Ausgabe vorgenommen - und genau die Zeile mit

PHP-Code:
require(dirname(PATH_thisScript).'/'.$BACK_PATH.'init.php'); 
wird anscheinend nicht zu Ende abgearbeitet, es kommt keine Meldung.

Gruß,
Jackzone
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #8  
Alt 16.11.06, 13:56
Forum Zuschauer
 
Registriert seit: 23.08.06
Alter: 31
Beiträge: 7

Mal was neues:

Der Rechner bei uns, auf dem es nicht läuft, ist ein vor kurzem neu aufgesetzter Ubuntu-Server (Linux mit LAMP). Habe hier aber noch einen weiteren Testserver (Windows mit XAMPP) drauf und auf dem funktioniert der Crawler mit Aufruf über Kommandozeile bestens
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #9  
Alt 16.11.06, 16:47
Forum Zuschauer
 
Registriert seit: 23.08.06
Alter: 31
Beiträge: 7

Lösung


Problem gefunden:

*grrrr* auf dem Ubuntu-Server waren nur php5-cgi / php-cgi installiert und nicht php5 / php selbst (halt Linux-Noob). Daher konnte wohl die crawler_cli.phpsh nicht richtig interpretiert werden

Nun wird der Cronjob minütlich gestartet und auch der Status im Backend wird auf "start" gesetzt und die Seiten indexiert

Gruß, Jackzone
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
Antwort

Lesezeichen

Themen-Optionen
Ansicht Thema bewerten
Thema bewerten:

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an


Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
indexed_search & crawler; Probleme beim crawlen externer URL ThH Indexed Search 2 29.07.08 06:10
error site crawler leecat Indexed Search 0 24.04.08 19:01
Gelöst Site Crawler konfigurieren Tycho Indexed Search 3 07.02.08 07:34
Crawler Extension: kompletten Seitenbaum crawlen sw-student Indexed Search 5 11.06.07 13:12
Site Crawler - Error Meldung jannsen Indexed Search 0 23.03.07 15:13


Alle Zeitangaben in WEZ +1. Es ist jetzt 14:53 Uhr.


Powered by vBulletin® Version 3.7.3 (Deutsch)
Copyright ©2000 - 2008, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0