![]() |
| | LinkBack | Themen-Optionen | Thema durchsuchen | Thema bewerten | Ansicht |
|
#1
| |||
| |||
Die pdf- und doc Anhänge werden nicht durchsucht -------------------------------------------------------------------------------- Hallo, ich benutze TYPO3 3.8.1 (quickstart), Apache 2.0, php 4.4.1 und MySQL 4.1. Im Moment habe ich folgendes Problem: letzte Woche habe ich mir die Extension "Indexed Search Engine 2.1.3" installiert; gemäß entsprechenden Anweisungen habe ich gleich auch die nötigen Zusatzprogramme wie: catdoc, xhtml, xpdf,... installiert. Während die xls, ppt und txt und rtf- Dateien von dieser Extension richtig durchsucht werden, gelingt es bei doc und pdf leider nicht Dies breäuchte ich aber unbedingt. Die Programme pdftotext und pdfinfo funktionieren an sich einwandfrei denn das habe ich bereits mehrfach in der DOS- Konsole getestet. Alle Seiten sind natürlich indiziert und werden gecacht. Es ist mir jedoch Folgendes aufgefallen- bei Versuch einen pdf- Anhang explizit zu re-indexieren (unter Web > Info > Indexed Search) bekomme ich folgende Fehlermeldung: Zitat:
Weiß jemand Rat? Ich wäre sehr dankbar!! Geändert von Junior (29.12.05 um 09:50 Uhr). |
| Sponsored Links |
![]() TYPO3 Forum.net empfiehlt domainFactory als Hoster! |
|
#2
| |||
| |||
| Schon mal überprüft, ob das, was die Fehlermeldung vermutet, auch der Fall ist? Kannst du diese PDF an deinem PC ohne Kennworteingabe ausdrucken? Schon mal mit anderen PDFs probiert? |
|
#3
| |||
| |||
Hi Stefan, danke für Deine Antwort! ich habe bereits die Einstellungen der einzelnen pdf's geprüft und die sind soweit OK, d.h. man kann sie frei drucken (ohne passwort) und mit dem "pdftotext" ins txt- Format konvertieren (in der DOS- Konsole). Aber das Durchsuchen und Re- Indexieren funktioniert leider nicht Ich muss halt weiter suchen! Viele Grüße und guten Rutsch ins Neue Jahr!, Brygida |
|
#4
| |||
| |||
| Hallo alle die sich mit dem Durchsuchen der pdf- und doc- Anhänge weiter quälen Ich habe es jetzt nach etlichen Veränderungen und Tests vom Skript "class.external.parser.php" so weit gebracht, dass die pdf- Anhänge zwar re-indexiert aber leider nach wie vor nicht durchsucht werden. Hierfür habe ich statt "pdftotext.exe" den "pdftohtml.exe" benutzt. Ursache: Die Konvertierung mit dem pdftotext ist vom Typo3, im Gegensatz zu direktem Aufruf vom DOS-Fenster nie durchgeführt worden denn dieses Programm akzeptiert in der Kommandozeile insgesamt (außer Prog-Namen aber mit allen Parameter und blanks) nur 119 Zeichen. Der Typo3 hingegen legt alle Anhänge in uploads/media und die Ergebnisse der Konvertierung in typo3temp/, zusätzliche werden bei Typo3 die absoluten Pfade benutzt. Man kann gleich "sehen" das dies leicht den Puffer von 119 Zeichen übersteigt. Schade, dass der Author vom pdftotext dies nicht unter diesen Bedingungen geprüft hat, bzw. was war das Ziel dieser Begrenzung; das Herausfinden dieses Bugs hat mit gute paar gekostet Ich habe dies bereits vor paar Tagen dem Author berichtet aber bisher leider kein Feedback von ihm erhalten...Das Programm "catdoc" hat auch einen kleinen Bug- es akzeptiert nämlich nur die 8.3 Namenskonvention, was gerade bei Anhängen die in Webauftritten für breites Publikum gedacht sind umständlich sind, denn da sollten die Dateinamen selbsterklärend sein und die ist mit 8 Zeichen kaum möglich. Nicht umsonst besteht seit mehreren Jahren in Office die Möglichkeit längere Dateinamen zu verwenden. Die Konvertierung von doc- Anhängen habe ich jedenfalls unter Typo3 noch nicht (aus Zeitmangel) geprüft. Für die mehr Interessierten hänge ich hieran meine jetzige Version vom o.g. php-Skript. In der pdf-Sektion, in der Funktion readFileContent sind die meisten Änderungen enthalten aber auch in initParser (dort veranlasse ich die SearchEngine das pdftohtml statt pdftotext zu benutzen). Zu Testzwecken habe ich ziemlich viele log_setTSlogMessage's hinzugefügt, damit kann man beim Re-indexieren sehr leicht am Bildschirm diesen Prozess verfolgen. Um pdftohtml vom Typo3 benutzen zu können muss natürlich der richtige Pfad in der Variable [pdftoolf] gesetzt werden, am besten wenn man die exe-Datei ins Verzeichnis wo sich die ganze Xpdf- Suite befindet kopiert, denn vorher wird pdfinfo benutzt und der hat den gleichen Pfad ([pdftools]). Noch was- es besteht die Möglichkeit ein pdf-Dokument in mehrere, gleich große Teil-Dateien zu teilen- dies geschieht im BE vom Typo3 aber im FE, auf der Website tritt es als eine Datei auf; dazu dient die Variable [pdfmode]. Dabei habe ich folgendes festgestellt- es werden, leider- immer noch der letzte Intervall verarbeitet- denn die Parameter f und l bekommen dummerweise immer (für jede Teil-Datei) den gleichen Wert. Ich konnte die Ursache nicht finden und habe es kurzerhand umgegenagen indem ich [pdfmode]=0 gesetzt habe, denn dies bedeutet, dass ein Dokument im ganzen Stück bleibt- es werden keine Teil-Dokumente gebildet. Doch wie schon vorhin gesagt- das Durchsuchen funktioniert nach wie vor nicht So, jetzt habe ich Euch genug gelnagweilt aber vielleicht hat es doch dem einen oder Anderen geholfen und zumindest die nervige Fehler-Suche erspart Falls jemand Ideen oder bereits fertige Lösungen hat, würde ich mich über ein Feedback sehr freuen Schöne Grüße, Brygida Geändert von Brygida (05.01.06 um 09:33 Uhr). Grund: Äderung: Anhang 'php' -> 'txt' sonst kein Publizieren im Forum möglich |
|
#5
| ||||
| ||||
| Hier noch der Link zur Lösung ![]() http://www.typo3forum.net/forum/inde...2-1-3-pdf.html Ganz lieben Gruss Junior
__________________ |
![]() |
| Themen-Optionen | Thema durchsuchen |
| Ansicht | Thema bewerten |
| |
Ähnliche Themen | ||||
| Thema | Autor | Forum | Antworten | Letzter Beitrag |
| indexed_search durchsucht tt_news nicht | karob | Indexed Search | 2 | 15.12.06 11:50 |
| indexed_search durchsucht nicht alles | michaelraberger | TYPO3 3.x Fragen und Probleme | 4 | 10.05.06 13:40 |
| pil_mailform v2.0.2 - Datei Anhänge werden nicht versendet | seb | Alle anderen Extensions | 1 | 02.05.06 08:42 |