Antwort
 
LinkBack Themen-Optionen Thema durchsuchen Thema bewerten Ansicht
  #1  
Alt 30.11.07, 08:40
Forum Stammgast
 
Registriert seit: 19.09.07
Beiträge: 179
Gelöst - keine suche in pdf's

Hallo Leute!

die indexed search hat doch auch die funktion das sie in pdf's sucht die auf der seite vorhanden sind oder? ;-)
nur bei mir funktioniert das nicht...

was muss ich dazu noch einstellen das sie auch pdfs durchsucht?

wäre um eine antwort dankbar

Gruß

Geändert von Silver (20.03.08 um 12:24 Uhr). Grund: Lösung gefunden ;-)
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
Sponsored Links
  #2  
Alt 02.12.07, 17:07
Forum Zuschauer
 
Registriert seit: 02.12.07
Alter: 28
Beiträge: 6
indexed search

Hallo,
wie so viele andere hab auch ich sehr lange gebraucht.
Zumindest habe ich geschafft, die indexierung übers frontend zum laufen zu bringen.

Da das Thema immer wieder aktuell zu sein scheint, antworte ich jetzt zu später Stunde trotzdem noch: es braucht folgende Punkte, damit die indexierung übers Frontend funktioniert.
  • die Plugin-Konfiguration im TS-config auf Root-level.
    Wichtig: dort muss auch der Cache eingeschaltet sein, sonst wird gar nix indexiert (steht kaum je geschrieben und hat mich deshalb 1 woche gekostet, hehe...)
  • 'pdftotext' und 'pdfinfo' müssen auf deinem Server insalliert sein, wenn es ein Mietserver ist, vielleicht mal beim Provider nachfragen
  • die richtige Konfiguration in der Extension selbst (Tools->Extensions)
    dazu gehört auch der richtige Pfad zu 'pdftotext' und 'pdfinfo', auch beim Provider nachfragen, wenn er es installiert hat
  • Dann erstelle mal zum Testen ein PDF mit nur Text aus einem einfachen Texteditor, um sicherzugehen, dass der Text im PDF als Text und nicht als Bilddaten gespeichert ist. Dieses muss dann auf einer Seite eingebunden sein, damit es durch FE-indexierung indexiert werden kann.
  • Dann braucht es natürlich noch jemanden, der sich durch das Frontend klickt, um die Indexierung zu veranlassen.
Hoffe das hilft jemandem weiter, es ist der Weg, der mich wenigstens einigermassen ans Ziel gebracht hat.
Was mich noch interessieren würde, ist, wie man ein PDF genau abspeichern muss, damit es gefunden wird. Falls sich jemand mit den PDF's auskennt, wäre das sicher interessant zu wissen. (Habe da nämlich Unterschiede festgestellt bei PDF's, die tatsächlich alle den Text als Text enthalten, nicht als Bilddaten...)

Lieber gruss vom Newbie
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #3  
Alt 03.12.07, 08:48
Forum Stammgast
 
Registriert seit: 19.09.07
Beiträge: 179

hey ;-)

danke erstmal für deine antwort!


Zitat:
Zitat von citystrolch Beitrag anzeigen
  • die Plugin-Konfiguration im TS-config auf Root-level.
    Wichtig: dort muss auch der Cache eingeschaltet sein, sonst wird gar nix indexiert (steht kaum je geschrieben und hat mich deshalb 1 woche gekostet, hehe...)
TS-config? also hab jetzt nur was im template bei setup im root level eingetragen! muss auf der root seite auch ncoh was bei TS-config hin?

Zitat:
Zitat von citystrolch Beitrag anzeigen
  • 'pdftotext' und 'pdfinfo' müssen auf deinem Server insalliert sein, wenn es ein Mietserver ist, vielleicht mal beim Provider nachfragen
  • die richtige Konfiguration in der Extension selbst (Tools->Extensions)
    dazu gehört auch der richtige Pfad zu 'pdftotext' und 'pdfinfo', auch beim Provider nachfragen, wenn er es installiert hat
ist vorhanden ;-) ist auch richtig eingestellt..

Zitat:
Zitat von citystrolch Beitrag anzeigen
  • Dann erstelle mal zum Testen ein PDF mit nur Text aus einem einfachen Texteditor, um sicherzugehen, dass der Text im PDF als Text und nicht als Bilddaten gespeichert ist. Dieses muss dann auf einer Seite eingebunden sein, damit es durch FE-indexierung indexiert werden kann.
  • Dann braucht es natürlich noch jemanden, der sich durch das Frontend klickt, um die Indexierung zu veranlassen.
alles passiert ;) nur tut sich nichts, der rest auf der seite wird eigentlich durch sucht (also die normalen textinhalte)

woran könnte es denn noch liegen?

Gruß
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #4  
Alt 03.12.07, 09:06
Forum Zuschauer
 
Registriert seit: 02.12.07
Alter: 28
Beiträge: 6

Ich kann es Dir so nicht sagen.
Mit TS-config meinte ich schon das Rootlevel Setup. (Web->template)
Hast Du dort config.no_cache=0 stehen? Und
config.index_enable = 1
config.index_externals = 1

Ich weiss nicht, das mit dem Cache war bei mir das Problem, und dann, wie ich inzwischen vermute, dass die PDF's passwortgeschützt waren (dies siehst du, wenn du ein PDF öffnest, und diese Passwortaufforderung kommt). Dadurch wird das PDF einfach ignoriert, ohne dass irgendwo eine Meldung kommt.

Falls mir noch etwas einfällt, lasse ich es Dich und euch alle natürlich gerne wissen. Vielleicht noch gut zu wissen wäre, welche Version des Plugins und welche Typo3-Version Du hast, man weiss ja nie...
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #5  
Alt 03.12.07, 09:37
TYPO3 Forum Team
Moderator
 
Registriert seit: 19.08.04
Ort: Mönchengladbach
Alter: 30
Beiträge: 396
Thoral eine Nachricht über ICQ schicken

moin,
wenn ihr die indexed_search installiert seht ihr doch
eine ganze menge config einstellungsmöglichkeiten und da seht ihr auch was im hintergrund noch laufen muss um pdfs zu indexieren und word und excel und und und.....

cu
__________________
TYPO3: v3-4 | MySQL 5.0.21 | PostgreSQL 8.1.4
Server: vva.de/profihost.com/hosteurope.de
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #6  
Alt 03.12.07, 09:47
Forum Stammgast
 
Registriert seit: 19.09.07
Beiträge: 179

Zitat:
Zitat von citystrolch Beitrag anzeigen
Ich kann es Dir so nicht sagen.
Mit TS-config meinte ich schon das Rootlevel Setup. (Web->template)
Hast Du dort config.no_cache=0 stehen? Und
config.index_enable = 1
config.index_externals = 1

Ich weiss nicht, das mit dem Cache war bei mir das Problem, und dann, wie ich inzwischen vermute, dass die PDF's passwortgeschützt waren (dies siehst du, wenn du ein PDF öffnest, und diese Passwortaufforderung kommt). Dadurch wird das PDF einfach ignoriert, ohne dass irgendwo eine Meldung kommt.
jupp hab ich alles stehen ;) und apsswort geschützt sidn die pdfs auch nciht...

also benutze Typo 4.1.2 und indexed search is version 2.10.0

hier vlt mal meine vereinbarungen für die suche im setup:
Typoscript-Code:
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
24:
25:
26:
27:
28:
29:
30:
31:
32:
33:
34:
35:
36:
37:
38:
39:
40:
41:
42:
43:
44:
45:
46:
47:
48:
49:
50:
51:
52:
53:
54:
55:
56:
57:
58:
59:
60:
61:
62:
# Interne Suchmaschine
page.config {
metaCharset = iso-8859-1
renderCharset = iso-8859-1
htmlTag_langKey = de
language = de
locale_all = de_DE
index_enable = 1
index_externals = 1
no_cache = 0
stat_apache = 1
stat_apache_logfile = typo3.log
}

# Einstellungen für die Index-Suche wegen der Übersichtlichkeit ausgelagert in ein Extension-Template

plugin.tx_indexedsearch {
_DEFAULT_PI_VARS.lang = 0
#Anzahl der ausgegebenen Suchergebnisse auf einer Seite
_DEFAULT_PI_VARS.results = 10
#Standard-CSS-Styles löschen
#_CSS_DEFAULT_STYLE >
#Suchworte kennzeichnen
#forwardSearchWordsInResultLink = 0

blind {
#settings: 0=aktiv (sichtbar), -1 inaktiv (nicht sichtbar)
#Vergleichs-Typ (Ganzes Wort, Wortteil,etc)
type=0
#type default option (und /oder)
defOp=0
#Bereich(e) der website    Aufsteigend absteigend
desc=-1
#Ergebnisse (Anzahl der Treffer pro Seite)
results=0
}

show {
#settings: 1=aktiv (sichtbar), 0 inaktiv (nicht sichtbar)
#Zeige Kurzanleitung
rules=0
#Erstellungsinformationen des Hash
parsetimes=0
#Zweite Ebene im Bereichs-dropdown anzeigen
L2sections=1
#Erste ebene im Bereichs-dropdown anzeigen
L1sections=1
#Alle "nicht im menü" oder "im menü verstecken" in Suche einbeziehen
LxALLtypes=0
#Leeren des Suchfeldes nach der Suche
#VORSICHT: Wenn eingeschaltet, funktioniert der Seitennavigator nicht mehr
clearSearchBox = 0
#Aktuelles Suchwort zu den bisherigen hinzufügen (Checkbox)
clearSearchBox.enableSubSearchCheckBox=0
}

search {
#Wird nur benötigt, wenn es mehr als eine Root-Page im Seitenbaum gibt.
#ansonsten leer lassen.
rootPidList =
}
}
vlt siehst du ja irgendwo noch ein fehler wo du sagst, na mensch, der isses ;)

Gruß
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #7  
Alt 03.12.07, 11:42
Forum Zuschauer
 
Registriert seit: 02.12.07
Alter: 28
Beiträge: 6
Mein Setup

Hmm...
Ich poste Dir einfach mal den Teil meines Setups, der die Suche betrifft - es ist recht kurz und bündig. Habe die Erfahrung gemacht, dass man sich auch "verkonfigurieren" kann, und sich dann abmüht beim Fehlersuchen, bis man dies bemerkt...

PHP-Code:
## CACHE EINSCHALTEN ###################
config.no_cache 0

## INDEXED SEARCH ######################
## die eigentliche Plugin-Konfiguration
plugin.tx_indexedsearch._DEFAULT_PI_VARS.lang 0
plugin
.tx_indexedsearch.show.rules 0
config
.index_enable 1
config
.index_externals 1


## INDEXED SEARCH OUTPUT #################
## hier wird ein Suchformular generiert und eingebunden, hat aber eigentlich nicht mit dem Indexing zu tun
lib.searchBox COA_INT
lib
.searchBox {
  
stdWrap.prefixComment lib.searchBox
  10 
TEXT
  10.typolink
.parameter 46 #(uid deiner Search-Page)
  
10.typolink.returnLast url
  10.wrap 
= <form action="|" method="post" id="indexedsearch">
  
20 COA
  20 
{
    
wrap = |
    
10 TEXT
    10.data 
GPvar tx_indexedsearch |sword
    10.wrap 
= <input name="tx_indexedsearch[sword]" value="|" class="searchbox-sword" type="text" />
    
20 COA
    20 
{
      
wrap = |
      
10 TEXT
      10.value 
= <input type="hidden" name="tx_indexedsearch[sections]" value="0" />
      
20 TEXT
      20.value 
= <input name="tx_indexedsearch[submit_button]" value="Search" type="hidden" />
      
30 TEXT
      30.value 
= <input name="search" value="Search" class="searchbox-button" type="submit" />
    }
  }
  
30 COA
  30 
{
    
wrap = |
    
10 TEXT
    10.value 
Erweiterte Suche
    10.typolink
.parameter 46 #(uid deiner Search-Page)
    
10.typolink.additionalParams = &tx_indexedsearch[ext]=1
    10.wrap 
= |
    if.
isTrue 0
  
}
  
wrap = | </form>

Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #8  
Alt 03.12.07, 12:06
Forum Stammgast
 
Registriert seit: 19.09.07
Beiträge: 179

danke citystrolch... aber damit hats auch keine pdf indiziert :sad:
es reicht doch wenn ich die pdfs als eine dateiliste auf meiner seite einbinde? oder ist das falsch?

@Thoral
für pdf brauch man doch nur pdftotext und pdfinfo oder nicht? und das ist vorhanden...

ich hab auf anderen seiten was von xpdf (oder so) gelesen.. fehlst das ggf.? oder ist das einfach pdftotext und pdfinfo?
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #9  
Alt 03.12.07, 14:12
Forum Zuschauer
 
Registriert seit: 02.12.07
Alter: 28
Beiträge: 6

Also XPDF ist das Paket, in dem auch pdftotext und pdfinfo enthalten sind. Wenn man sich mit Linux nicht besonders auskennt, und der Hostingprovider einem das installieren kann, würde ich diese Variante vorziehen. Wenn du also nur PDF's durchsuchen möchtest, brauchst Du auch nur bei pdftools den Pfad anzugeben, den Dir der Provider mitgeteilt hat. (/usr/bin/ oder ähnlich...)
Bei den anderen, die Du nicht brauchst, oder nicht weisst, ob sie vorhanden sind, würd ich nichts eintragen resp. den Default-Wert löschen.

Leider bin ich auch (noch) kein Profi, was indexed_search angeht, und muss gestehen, dass mir sonst grad nichts mehr einfällt.
Hoffen wir für Dich, dass jemand anderes irgendeine geistreiche Antwort postet...
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
  #10  
Alt 03.12.07, 14:33
Forum Stammgast
 
Registriert seit: 19.09.07
Beiträge: 179

Zitat:
Zitat von citystrolch Beitrag anzeigen
Also XPDF ist das Paket, in dem auch pdftotext und pdfinfo enthalten sind. Wenn man sich mit Linux nicht besonders auskennt, und der Hostingprovider einem das installieren kann, würde ich diese Variante vorziehen. Wenn du also nur PDF's durchsuchen möchtest, brauchst Du auch nur bei pdftools den Pfad anzugeben, den Dir der Provider mitgeteilt hat. (/usr/bin/ oder ähnlich...)
Bei den anderen, die Du nicht brauchst, oder nicht weisst, ob sie vorhanden sind, würd ich nichts eintragen resp. den Default-Wert löschen.

Leider bin ich auch (noch) kein Profi, was indexed_search angeht, und muss gestehen, dass mir sonst grad nichts mehr einfällt.
Hoffen wir für Dich, dass jemand anderes irgendeine geistreiche Antwort postet...
ja gut, xpdf is das komplette paket ;)
aber pdftotext und pdfinfo sind schon installiert und alles andere auch und auch der richtige pfad angegeben, daran dürfte es eigentlich nicht liegen...

naja gut, trotzdem vielen dank für deine hilfe!

Gruß
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!Spurl this Post!Reddit! Diesen Post bei linksilo.de bookmarken!
Mit Zitat antworten
Antwort


Themen-Optionen Thema durchsuchen
Thema durchsuchen:

Erweiterte Suche
Ansicht Thema bewerten
Thema bewerten:

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge anzufügen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

vB Code ist An.
Smileys sind An.
[IMG] Code ist An.
HTML-Code ist Aus.
Trackbacks are An
Pingbacks are An
Refbacks are An


Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
Nur 4 von 50 pdf's auf einer Seite werden indexiert.... isabelle Indexed Search 2 07.11.07 12:55
suche zeigt keine ergebnisse Averlon mm_forum 0 22.09.07 18:48
keine suche im menü netti Indexed Search 2 12.03.07 09:12
Beta3: Suche im TER ergibt keine Treffer Cybersmog TYPO3 4.x Fragen und Probleme 0 24.02.06 09:42
Keine Suche mit macina_searchbox sebse Indexed Search 1 08.02.06 09:35


Alle Zeitangaben in WEZ +1. Es ist jetzt 15:05 Uhr.


Powered by vBulletin® Version 3.6.8 Patch Level 2 (Deutsch)
Copyright ©2000 - 2008, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0
Template-Modifikationen durch TMS