Antwort
 
LinkBack Themen-Optionen Thema durchsuchen Thema bewerten Ansicht
  #1  
Alt 28.12.05, 12:14
Forum Newbie
 
Registriert seit: 14.12.05
Alter: 33
Beiträge: 47
Die pdf- und doc Anhänge werden nicht durchsucht

Die pdf- und doc Anhänge werden nicht durchsucht

--------------------------------------------------------------------------------

Hallo,

ich benutze TYPO3 3.8.1 (quickstart), Apache 2.0, php 4.4.1 und MySQL 4.1.
Im Moment habe ich folgendes Problem: letzte Woche habe ich mir die Extension "Indexed Search Engine 2.1.3" installiert; gemäß entsprechenden Anweisungen habe ich gleich auch die nötigen Zusatzprogramme wie: catdoc, xhtml, xpdf,... installiert. Während die xls, ppt und txt und rtf- Dateien von dieser Extension richtig durchsucht werden, gelingt es bei doc und pdf leider nicht Dies breäuchte ich aber unbedingt. Die Programme pdftotext und pdfinfo funktionieren an sich einwandfrei denn das habe ich bereits mehrfach in der DOS- Konsole getestet.
Alle Seiten sind natürlich indiziert und werden gecacht.
Es ist mir jedoch Folgendes aufgefallen- bei Versuch einen pdf- Anhang explizit zu re-indexieren (unter Web > Info > Indexed Search) bekomme ich folgende Fehlermeldung:
Zitat:
PDFtoText Failed on this document: D:/Programme/Typo3/quickstart-3.8.1/uploads/media/hello.pdf. Maybe the PDF file is locked for printing or encrypted.
Bei re-indexieren von xls, txt oder rtf passiert das nicht.

Weiß jemand Rat? Ich wäre sehr dankbar!!

Geändert von Junior (29.12.05 um 09:50 Uhr).
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #2  
Alt 28.12.05, 21:06
TYPO3 Forum Team
Moderator
 
Registriert seit: 25.03.05
Ort: München
Alter: 21
Beiträge: 324

Schon mal überprüft, ob das, was die Fehlermeldung vermutet, auch der Fall ist?

Kannst du diese PDF an deinem PC ohne Kennworteingabe ausdrucken? Schon mal mit anderen PDFs probiert?
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #3  
Alt 29.12.05, 09:31
Forum Newbie
 
Registriert seit: 14.12.05
Alter: 33
Beiträge: 47
Deine Vermutung ist falsch

Hi Stefan,
danke für Deine Antwort!
ich habe bereits die Einstellungen der einzelnen pdf's geprüft und die sind soweit OK, d.h. man kann sie frei drucken (ohne passwort) und mit dem "pdftotext" ins txt- Format konvertieren (in der DOS- Konsole). Aber das Durchsuchen und Re- Indexieren funktioniert leider nicht

Ich muss halt weiter suchen!

Viele Grüße und guten Rutsch ins Neue Jahr!,
Brygida
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #4  
Alt 05.01.06, 09:23
Forum Newbie
 
Registriert seit: 14.12.05
Alter: 33
Beiträge: 47
Idee Ein kleiner Fortschritt

Hallo alle die sich mit dem Durchsuchen der pdf- und doc- Anhänge weiter quälen

Ich habe es jetzt nach etlichen Veränderungen und Tests vom Skript "class.external.parser.php" so weit gebracht, dass die pdf- Anhänge zwar re-indexiert aber leider nach wie vor nicht durchsucht werden.

Hierfür habe ich statt "pdftotext.exe" den "pdftohtml.exe" benutzt. Ursache: Die Konvertierung mit dem pdftotext ist vom Typo3, im Gegensatz zu direktem Aufruf vom DOS-Fenster nie durchgeführt worden denn dieses Programm akzeptiert in der Kommandozeile insgesamt (außer Prog-Namen aber mit allen Parameter und blanks) nur 119 Zeichen. Der Typo3 hingegen legt alle Anhänge in uploads/media und die Ergebnisse der Konvertierung in typo3temp/, zusätzliche werden bei Typo3 die absoluten Pfade benutzt. Man kann gleich "sehen" das dies leicht den Puffer von 119 Zeichen übersteigt. Schade, dass der Author vom pdftotext dies nicht unter diesen Bedingungen geprüft hat, bzw. was war das Ziel dieser Begrenzung; das Herausfinden dieses Bugs hat mit gute paar gekostet Ich habe dies bereits vor paar Tagen dem Author berichtet aber bisher leider kein Feedback von ihm erhalten...
Das Programm "catdoc" hat auch einen kleinen Bug- es akzeptiert nämlich nur die 8.3 Namenskonvention, was gerade bei Anhängen die in Webauftritten für breites Publikum gedacht sind umständlich sind, denn da sollten die Dateinamen selbsterklärend sein und die ist mit 8 Zeichen kaum möglich. Nicht umsonst besteht seit mehreren Jahren in Office die Möglichkeit längere Dateinamen zu verwenden. Die Konvertierung von doc- Anhängen habe ich jedenfalls unter Typo3 noch nicht (aus Zeitmangel) geprüft.
Für die mehr Interessierten hänge ich hieran meine jetzige Version vom o.g. php-Skript. In der pdf-Sektion, in der Funktion readFileContent sind die meisten Änderungen enthalten aber auch in initParser (dort veranlasse ich die SearchEngine das pdftohtml statt pdftotext zu benutzen). Zu Testzwecken habe ich ziemlich viele log_setTSlogMessage's hinzugefügt, damit kann man beim Re-indexieren sehr leicht am Bildschirm diesen Prozess verfolgen. Um pdftohtml vom Typo3 benutzen zu können muss natürlich der richtige Pfad in der Variable [pdftoolf] gesetzt werden, am besten wenn man die exe-Datei ins Verzeichnis wo sich die ganze Xpdf- Suite befindet kopiert, denn vorher wird pdfinfo benutzt und der hat den gleichen Pfad ([pdftools]). Noch was- es besteht die Möglichkeit ein pdf-Dokument in mehrere, gleich große Teil-Dateien zu teilen- dies geschieht im BE vom Typo3 aber im FE, auf der Website tritt es als eine Datei auf; dazu dient die Variable [pdfmode]. Dabei habe ich folgendes festgestellt- es werden, leider- immer noch der letzte Intervall verarbeitet- denn die Parameter f und l bekommen dummerweise immer (für jede Teil-Datei) den gleichen Wert. Ich konnte die Ursache nicht finden und habe es kurzerhand umgegenagen indem ich [pdfmode]=0 gesetzt habe, denn dies bedeutet, dass ein Dokument im ganzen Stück bleibt- es werden keine Teil-Dokumente gebildet.
Doch wie schon vorhin gesagt- das Durchsuchen funktioniert nach wie vor nicht

So, jetzt habe ich Euch genug gelnagweilt aber vielleicht hat es doch dem einen oder Anderen geholfen und zumindest die nervige Fehler-Suche erspart

Falls jemand Ideen oder bereits fertige Lösungen hat, würde ich mich über ein Feedback sehr freuen

Schöne Grüße,
Brygida
Angehängte Dateien
Dateityp: txt class.external_parser.txt (24,5 KB, 124x aufgerufen)

Geändert von Brygida (05.01.06 um 09:33 Uhr). Grund: Äderung: Anhang 'php' -> 'txt' sonst kein Publizieren im Forum möglich
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #5  
Alt 29.01.06, 22:28
Benutzerbild von Junior
TYPO3 Forum Team
Administrator
 
Registriert seit: 18.08.04
Ort: Zürich
Alter: 33
Beiträge: 2.776
Junior eine Nachricht über Skype™ schicken

Hier noch der Link zur Lösung

http://www.typo3forum.net/forum/inde...2-1-3-pdf.html

Ganz lieben Gruss

Junior
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
Antwort


Themen-Optionen Thema durchsuchen
Thema durchsuchen:

Erweiterte Suche
Ansicht Thema bewerten
Thema bewerten:

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge anzufügen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

vB Code ist An.
Smileys sind An.
[IMG] Code ist An.
HTML-Code ist Aus.
Trackbacks are An
Pingbacks are An
Refbacks are An


Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
indexed_search durchsucht tt_news nicht karob Indexed Search 2 15.12.06 11:50
indexed_search durchsucht nicht alles michaelraberger TYPO3 3.x Fragen und Probleme 4 10.05.06 13:40
pil_mailform v2.0.2 - Datei Anhänge werden nicht versendet seb Alle anderen Extensions 1 02.05.06 08:42


Alle Zeitangaben in WEZ +1. Es ist jetzt 01:40 Uhr.


Powered by vBulletin® Version 3.6.8 Patch Level 2 (Deutsch)
Copyright ©2000 - 2008, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0
Template-Modifikationen durch TMS