Antwort
 
LinkBack Themen-Optionen Thema durchsuchen Thema bewerten Ansicht
  #1  
Alt 25.03.08, 13:48
Forum Zuschauer
 
Registriert seit: 25.03.08
Beiträge: 9
PDF werden nicht indexiert

Hallo,

leider werden meine PDFs nicht indiziert.

Mein Typo3 läuft unter Windows und ich habe pdftotext und pdfinfo installiert sowie in der Extension eingerichtet.

Wenn ich eine Seite mit einem PDF aufrufe, sehe ich im Prozessmanager das sowohl pdftotext als auch pdfinfo mehrfach gestartet werden. Ich kann aber bei der Suche keine Treffer in einem PDF ausmachen.

Wo kann ich noch ansetzen um den Fehler weiter einzukreisen ?
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
Sponsored Links
  #2  
Alt 26.03.08, 07:13
Forum Stammgast
 
Registriert seit: 19.09.07
Beiträge: 179
Frage Template oder php?

hast du mal unter Web->Info geschaut? da werden die gecacheten seiten angezeigt, deine pdfs denn nicht oder?
dort kansnt du dnen mal auf was in der spalte 'title' klicken und dort unter 'Debug information' unter logs schauen was dort steht... steht dort sowas wie pdftotext disable?

hast du etwas Setup Template vereinbart? und den php safe mode ausgeschalten?



Gruß
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #3  
Alt 26.03.08, 09:40
Forum Zuschauer
 
Registriert seit: 25.03.08
Beiträge: 9

Ich kann unter Web->Info nicht von einem PDF sehen. Unter Debug finde ich auch keine Fehlermeldung. Ich habe im Setup Template folgendes stehen :

page.config.index_enable = 1
page.config.index_externals = 1

Den PHP Save Mode habe ich auf ON, das muß auch so bleiben. Allerdings sehe ich ja im ProcessMonitor das 'pdfinfo' und 'pdftotext' durch Typo3 aufgerufen werden.

Ich habe auch beide Tools mal von Hand über die Kommadozeile getestet, funktionieren wie erwartet.
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #4  
Alt 26.03.08, 10:05
Forum Stammgast
 
Registriert seit: 19.09.07
Beiträge: 179

Zitat:
Ich kann unter Web->Info nicht von einem PDF sehen. Unter Debug finde ich auch keine Fehlermeldung. Ich habe im Setup Template folgendes stehen :
achja, ich vergass.. dazu musst du noch in den indexed search optionen (Ext Manager auf indexed search engine klicken) die debug informationen einstellen...

Zitat:
Den PHP Save Mode habe ich auf ON, das muß auch so bleiben. Allerdings sehe ich ja im ProcessMonitor das 'pdfinfo' und 'pdftotext' durch Typo3 aufgerufen werden.
das mag ja sein, aber du kannst ja mal kurz den safe mode ausschalten und es probieren.. denn müsste es nämlich funktionieren, denn da überprüft wird ob der safe mode aus ist..

Zitat:
Ich habe auch beide Tools mal von Hand über die Kommadozeile getestet, funktionieren wie erwartet.
das mag erst recht sein, hatte ich auch probiert, ging auch einwandfrei..

schau mal hier: http://www.typo3forum.net/forum/inde...g-pdf-usw.html (keine Indizierung von PDF usw ...)
is beitrag von mir, wie du siehst hab ich das problem auch erst vorige woche gelöst..

Gruß
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #5  
Alt 26.03.08, 13:20
Forum Zuschauer
 
Registriert seit: 25.03.08
Beiträge: 9

Danke für die Antwort. Ich habe es jetzt mit Safe Mode = Off getestet. Leider auch ohne Erfolg. Die Prozesse werden gestartet, aber es wird nix indiziert. Schau ich mir unter Web->Info die Seite mit dem Link zum PDF an, steht dort auch unter phash row content:
..
externalUrl0
..

Müßte da nicht ein Wert >0 stehen wenn die Seite ein PDF enthält ?
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #6  
Alt 26.03.08, 15:06
Forum Stammgast
 
Registriert seit: 19.09.07
Beiträge: 179

hm, also das steht bei mir auch, aber pdfs indiziert er trotzdem.
in wie fern ist den deine pdf datei n link? nen dateiverweis? oder mit nen RTE verlinkt?

hast du, nachdem du den safe mode off gestellt hast den apache neu gestartet?
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #7  
Alt 26.03.08, 16:39
Forum Zuschauer
 
Registriert seit: 25.03.08
Beiträge: 9

Die Verweise auf das PDF sind Links im RTE. Ja, Apache hatte ich neu gestartet.

Kann man nicht an irgendeiner Stelle ein Log oder sowas einschalten, das mich näher zum Problem bringen könnte ?
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #8  
Alt 27.03.08, 10:29
Forum Stammgast
 
Registriert seit: 19.09.07
Beiträge: 179

Log? hm... hätte ich auch gern gehabt...
wie gesagt, gibt diese Debug informationen die du anschalten kansnt und denn dort unter web->info und auf ne seite klcikst da gezeigt werden, da stand bei mir eben die ganze zeit pdftotext disable... bis ich php safe mode geändert hab.

und die richtigen pfade zu den programmen hast du auch eingestellt?
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #9  
Alt 27.03.08, 11:55
Forum Zuschauer
 
Registriert seit: 25.03.08
Beiträge: 9

Ja, die Pfade stimmen. Sonst dürften die Prozesse auch nicht aufgehen denke ich. Ich hatte den Debug Modus aktiv, aber keine Meldung bekommen wie Du beschreiben hast. Ich finde das sehr seltsam. Unter Indexierung steht :

index_phash TYPES

(TYPO3 page) (268/259)
(jpeg) 268/4
(txt) 268/5

Da fehlt auch schon (pdf) .... Noch jemand eine Idee ?
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #10  
Alt 27.03.08, 12:08
Forum Stammgast
 
Registriert seit: 19.09.07
Beiträge: 179

hmm...komsich...einzige wäre jetz noch..im Install tool unter all configuration gbits ncoh den punkt binPath ...das du da nochmal den pfad angibst..

hm stimmmt, bie mir unter indexeierung steht auch pdf... aber was bedeuten die werte denn? also z.b. (jpeg) 268/4? hast du da ne ahnung?
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
Antwort


Themen-Optionen Thema durchsuchen
Thema durchsuchen:

Erweiterte Suche
Ansicht Thema bewerten
Thema bewerten:

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge anzufügen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

vB Code ist An.
Smileys sind An.
[IMG] Code ist An.
HTML-Code ist Aus.
Trackbacks are An
Pingbacks are An
Refbacks are An


Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
Dateien werden nach Upload nicht mehr indexiert juergmai TYPO3 4.x Fragen und Probleme 0 06.07.08 16:37
Nur 4 von 50 pdf's auf einer Seite werden indexiert.... isabelle Indexed Search 2 07.11.07 12:55
Sitemap indexiert keine Ordner "Nicht im Menü" eyedee TYPO3 4.x Fragen und Probleme 10 13.09.07 07:53
News bei eingeloggtem Benutzer werden nicht indexiert Waldo Indexed Search 2 13.08.07 10:41
Es werden nicht alle Seiten indexiert!!! TheFreeman Indexed Search 3 13.09.06 13:35


Alle Zeitangaben in WEZ +1. Es ist jetzt 15:15 Uhr.


Powered by vBulletin® Version 3.6.8 Patch Level 2 (Deutsch)
Copyright ©2000 - 2008, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0
Template-Modifikationen durch TMS