Johannes Kepler Universität Linz
Institut für Informationsverarbeitung und Mikroprozessortechnik (FIM)
Dipl.-Ing. Michael Sonntag
Inhaltsverzeichnis *
Link-Verzeichnis *
1 Auswahl von personalisierten Websites
*2 Produkte zur Personalisierung von Websites
*3 Verschiedenes
*Untersuchungen zur Personalisierung *
1 Über die Personalisierung
*1.1 Allgemeines
*1.1.1 Definition
*1.1.2 Probleme für Anbieter einer personalisierten Website
*1.2 Sinn und Zweck der Personalisierung
*1.2.1 Zielgerichtete Werbung
*1.2.2 Erhöhte Kundenbindung bei Electronic Commerce
*1.2.3 Speziell abgestimmte Informationen
*1.2.4 Reduktion der Datenflut
*1.2.5 Verteilung von Informationen in Betrieben
*1.2.6 Genaue Benutzerüberwachung möglich
*1.3 Wiedererkennen des Benutzers
*1.3.1 Benutzername und Paßwort
*1.3.2 Cookies
*1.3.3 Spezielle URLs mit codierter Benutzerkennung
*1.3.4 Position des Benutzers
*1.3.5 Add-On Programme
*1.3.6 Login über Benutzername und Paßwort (HTTP-Protokoll)
*1.3.7 S-HTTP/SSL
*1.4 Strategien zur Anpassung der Daten an den Benutzer
*1.4.1 Explizite Abfrage
*1.4.2 Suchweg-Verkürzung
*1.4.3 Kollaboratives Filtern
*1.4.4 Verhaltensbeobachtung
*1.4.5 Fertige statistische Profile
*2 Marktübersicht: Programme zur Personalisierung
*2.1 Beurteilungskriterien
*2.2 LearnSesame
*2.3 GuestTrack
*2.4 IntelliWeb
*2.5 Firefly
*2.6 SiteServer
*2.7 ObjectStore
*2.8 One-To-One
*2.9 GroupLens
*2.10 Dynamo Profile Station
*2.11 Story Server
*2.12 WebSell
*2.13 WiseWire for WebSites
*2.14 AgentWare
*2.15 Zusammenfassung
*1. Auswahl von personalisierten Websites
MyYahoo: http://my.yahoo.com (15.7.98): Zusatz zur Suchmaschine Yahoo. Bietet hauptsächlich Nachrichten, Finanzinformationen, Unterhaltung, Sport, Reisen, Gesundheit und Shopping. Darstellung der Seite kann selbst eingestellt werden. Personalisierung nur nach Einstellungen des Benutzers, kein Lernen.
Microsoft Network: http://www.msn.com (22.7.98): Die Informationsseite kann persönlich zusammengestellt werden. Keine Personalisierung nach persönlichen Interessen.
Infoseek: http://guide.infoseek.com/news?pg=personalize.html (22.7.98): Keine echte Personalisierung (anonym, nicht nach pers. Interessen). Die Eingabe von Suchbegriffen sucht nach entsprechenden Nachrichten. Speicherung über ein Cookie.
My Netscape: http://my.netscape.com (30.7.98): Preview (ganz neu, Preview). Bietet Bookmarks und Adressen, Taschenrechner sowie die üblichen Wettervorhersagen, Börseninformationen und Nachrichten. Graphisch gute Oberfläche.
AOL.com: http://www.aol.com/mynews (27.7.98): Bietet die übliche Personalisierung: Nachrichten, Wetter, Börse, Sport, …
Excite: http://my.excite.com (22.7.98): Sehr gute Personalisierung. Die Seite kann nach eigenen Vorstellungen arrangiert werden und die interessanten Gebiete ausgesucht werden. Kein Lernen nach der Benutzung sondern ausschließlich nach Benutzerkonfiguration.
Lycos (DE): http://personal.lycos.de (23.7.98) (Nur für Deutschland): Bietet Nachrichten, Kalender, Wetter, usw. Keine Registrierung erforderlich (alles in Cookies gespeichert).
Lycos (USA): http://personal.lycos.com (23.7.98): Sehr ähnlich zu Excite. Bietet auch persönliche Kontakte, Erinnerungen, …
Lycos Webguides: http://www.lycos.com/webguides/webguides.html (27.7.98): Bietet eine Kategorisierung von Links, wobei die Personalisierung durch Bewertung der Ergebnisse erfolgt. Verwendet WiseWire.
Time Warner Money: http://www.money.com (23.7.98): Bietet persönliche Portfolios, sowie aktive Information bei bestimmten Änderungen. Kostenpflichtig (30 Tage freie Testmöglichkeit).
Hotmail: http://www.hotmail.com (23.7.98): Kostenloser E-Mail Account, der über das WWW zugänglich ist. Große Mächtigkeit. Wird durch Werbung finanziert.
Barnes&Noble: http://www.barnesandnoble.com (22.7.98): Online-Buchgeschäft, das auch Personalisierung anbietet. Man bekommt Buch-Empfehlungen, nachdem man selbst einige Bücher bewertet hat (Verwendet firefly Technologie).
Amazon: http://www.amazon.com (28.7.98): Online-Buchgeschäft, das auch Personalisierung anbietet. Buch-Empfehlungen erfolgen nach: Gekauften Büchern, Autoren, Buchbewertungen (mind. 20). Bietet auch eine Führung durch die Kategorisierung: ähnliche Autoren, Themengebiete, etc.
2. Produkte zur Personalisierung von Websites
LearnSesame: http://www.opensesame.com (20.7.98): Siehe 2.2
GuestTrack: http://www.guesttrack.com/guesttrack.html (20.7.98): Siehe 2.3
Intelliweb: http://www.micromass.com/intelweb.html (20.7.98): Siehe 2.4
Firefly: http://www.agentsinc.com (20.7.98): Siehe 2.5
SiteServer: http://www.microsoft.com/siteserver (20.7.98): Siehe 2.6
ObjectStore: http://www.odi.com (20.7.98); Personalization Object Manager: http://www.odi.com/products/managers_section.html (20.7.98): Siehe 2.7
One-To-One: http://www.broadvision.com (20.7.98): Siehe 2.8
GroupLens: http://www.netperceptions.com/product/index.html (21.7.98): Siehe 2.9
Dynamo Profile Station: http://www.atg.com/develop/products/profile (21.7.98): Siehe 2.10
StoryServer: http://www.vignette.com (23.7.98): Siehe 2.11
WebSell: http://www.likeminds.com/solutions/websell (21.7.98): Siehe 2.12
WiseWire: http://www.wisewire.com (27.7.98): Siehe 2.13
Agentware: http://www.agentware.com (27.7.98): Siehe 2.14
TrustE: http://www.truste.org (16.7.98): Non-profit Organisation, die sich um Vertraulichkeit von persönlichen Daten im WWW bemüht. Gibt allgemeine Richtlinien vor und empfiehlt Regelungen ("Korrekturen persönlicher Informationen sollten möglich sein"), schreibt aber keinen Inhalt vor.
Cookie Central: http://www.cookiecentral.com (16.7.98): Extensive Informationen über Cookies, ihre Anwendungen, die Probleme, die sie verursachen können und was man dagegen tun kann.
Richard Dean: Personalizing your Web site: http://www.builder.com/Business/Personal/ss01.html (21.7.98): Allgemeiner Artikel über Personalisierung, der nirgends in die Tiefe geht.
Mark Palmer: A Personalization design pattern for dynamic websites: http://www.odi.com/content/white_papers/personalization/webapps.html (22.7.98): Handelt hauptsächlich über den Einsatz von ODBMS in Personalisierung.
Richard V. Dragan: Advice from the Web: http://www.zdnet.com/pcmag/features/advice/_intro.htm (27.7.98): Artikel über Empfehlungssysteme im Web.
Will Rodger: Industry Makes Online Privacy Enforcement Recommendations: http://www.zdnet.com/intweek/daily/980722a.html (29.7.98): Artikel über den Umgang mit persönlichen Daten im Zusammenhang mit Websites
Untersuchungen zur Personalisierung
In diesem Kapitel soll Allgemeines über die Personalisierung erklärt werden. Zuerst wird versucht, eine Definition zu geben, um eine gemeinsame Basis für das Verständnis des weiteren zu finden. Anschließend wird der Sinn und Zweck der Personalisierung untersucht. Weiters findet sich ein Abschnitt darüber, wie es möglich ist, einen Besucher auf einer Webseite wiederzuerkennen, was eine Grundvoraussetzung für die Anpassung des Inhalts ist. Zum Abschluß wird detailliert untersucht, welche Möglichkeiten es gibt, den Inhalt an den Benutzer anzupassen: Befragung nach Interessensgebieten, Lernen aus dem Verhalten, etc.
Sinnvollerweise ist mit einer Definition zu beginnen, da unter Personalisierung mitunter sehr verschiedene Dinge verstanden werden. Anschließend werden die wichtigsten Probleme im Zusammenhang mit Personalisierung näher erläutert: Unrichtige Angaben, Änderungen der Interessen mit der Zeit, Wahrung der Privatsphäre und der Widerspruch zwischen einfachem Zugang und möglichst detaillierten Informationen.
Es gibt keine allgemein anerkannte Definition, was unter Personalisierung zu verstehen ist, da dieser Begriff auch in sehr unterschiedlichem Kontext verwendet wird: Anpassung von Produkten an Kundenwünsche (auch Individualisierung), Electronic Commerce ("persönlicher Einkauf", auch wenn keinerlei Anpassung an den Benutzer erfolgt), Software-Konfiguration (Benutzereinstellungen), feste News-channel, Anpassung von Webseiten an Kunden oder Besucher und vieles mehr. Daher soll im weiteren unter Personalisierung folgendes verstanden werden:
Anpassung von auf Webseiten angebotenen Informationen an die Interessen des jeweiligen Betrachters durch Auswahl und Darstellung interessanter und Ausscheiden und Weglassen uninteressanter Daten.
1.1.2 Probleme für Anbieter einer personalisierten Website
Der Versuch, eine Website zu personalisieren, bringt mehrere Probleme mit sich. Diese sind im Einzelnen:
1.1.2.1 Unrichtige Interessensangaben
Die Erfahrung zeigt, daß Personen oft unrichtige Angaben darüber machen, woran sie besonders interessiert sind. Dies hat seinen Grund nur in Ausnahmefällen in absichtlich falschen Angaben, sondern beruht meistens auf einem oder mehreren der folgenden Punkte:
Es ist daher notwendig, die Angaben des Benutzers nur als vorläufig und unvollständig zu betrachten. Nur für sehr einfache Kategorien der Personalisierung mit eindeutiger Datenklassifizierung (geographische Lage: z. B. Bundesland, Wohnort, …; einige wenige grobe Interessengebiete) ist es möglich, sich auf die Angaben des Kunden zu beschränken. In allen anderen Fällen ist es notwendig, das Profil zumindest durch Beobachtung anzupassen (Siehe dazu im Detail unter Punkt 1.4).
1.1.2.2 Änderungen des Interessensprofils
Im Zusammenhang mit den anfänglich unrichtigen Interessensangaben steht die nachträgliche Veränderung des Profils. Mit der Zeit ändern sich die Interessensgebiete, was bei der Personalisierung berücksichtigt werden muß. Dies kann wiederum durch verschiedene Möglichkeiten festgestellt werden.
Hierbei ist aber zu beachten, daß eine explizite Änderung des Profils durch den Benutzer sehr einfach durchzuführen sein muß, da die Kunden dies ansonsten nicht tun werden. Die Änderung der Interessen macht sich dann durch eine immer geringere Nutzung bemerkbar, da die Auswahl von immer geringerer Treffsicherheit und damit von sinkendem Nutzen ist.
Um größere Änderungen durch Beobachtung des Verhaltens erkennen zu können (z. B. der Benutzer interessiert sich nun auch noch für ein ganz anderes Gebiet und gibt dafür ein bisheriges auf), ist es notwendig, auch verwandte und andere Themen anzubieten, da er ansonsten das neue Thema auf anderem Wege besucht und keine Informationen darüber erlangt werden können. Beispielsweise steigt Kunde der Nutzer über eine Suchmaschine ein und nicht über Links auf der Seite des Anbieters der Personalisierung, sodaß eine Beobachtung nur äußerst schwierig, wenn überhaupt, möglich ist. Dies ist eine besondere Gratwanderung, da der Benutzer ja nicht mit einer großen Menge für ihn nur potentiell interessanter Links überschwemmt werden möchte. Daher ist die Einbindung eines Suchmaschinen-Interfaces eine gute Idee für einen Anbieter solcher Seiten (Falls die Personalisierung nicht ohnedies vom Anbieter einer Suchmaschine ausgeht, was sehr oft der Fall ist, siehe Links).
1.1.2.3 Rechtliche Probleme
Durch die (zumeist erfolgende) Beobachtung des Benutzers fallen große Mengen persönlicher Daten an, die vor unbefugtem Zugriff gesichert werden müssen. Darüber hinaus wären diese Informationen zwar von großem Wert für andere Firmen (z. B. als Adressen für zielgerichtete Werbung, …), dürfen jedoch nur unter bestimmten Umständen weitergegeben werden (z. B. Anerkennung von Benützungsbedingungen durch den Kunden).
1.1.2.4 Notwendigkeit eines großen Benutzerkreises
Für viele Techniken zur Personalisierung ist es notwendig, daß der regelmäßige Benutzerkreis groß ist. Dies ist notwendig, um aus dem Verhalten gültige statistische Daten ableiten zu können (insbesondere wenn die Personalisierung vom Vergleich mit anderen Benutzern abhängt). Auch die zusätzlichen Kosten für die Bereitstellung von personalisierbaren Informationen sind hier in Betracht zu ziehen, die sich nur bei vielen Benutzern rechnen.
1.1.2.5 Einfacher Einstieg Ö Detaillierte Informationen über den Benutzer
Da Benutzer nur sehr unwillig längere Fragebögen ausfüllen (zwei Seiten können schon zuviel sein), sind nur sehr spärliche Informationen über die Interessensgebiete vorhanden. Dies kann u. U. dadurch beseitigt werden, daß zusätzliche Dienste angeboten werden, die einzeln zu konfigurieren sind (Angabe der geograph. Position ermöglicht lokalen Wetterbericht). Dies ist besonders in Hinblick auf den vorigen Punkt wichtig, da detaillierte Abfrage von Informationen nicht nur höchst ungern beantwortet werden ("Was geht das eigentlich die an?"), sondern auch den Benutzerkreis verringern ("Das ist mir zu mühsam!"). Hier ist ein tradeoff besonders schwierig, da nur allgemeine Informationen zwar die Anzahl der Benutzer erhöht, jedoch durch die ungenaue Anpassung nur einen geringen Nutzen bringt und der Ausstieg sehr leicht ist und naheliegt. Dies ist auch mit ein Grund für die Verwendung von statistischen Benutzerprofilen, um neue Kunden mit wenigen Fragen in ein detailliertes Profil einzupassen, welches mit der Zeit dann für die einzelne Person maßgeschneidert wird.
1.1.2.6 Höherer Softwareaufwand
Da auf Grund der Personalisierung die Seiten jeweils für jeden Benutzer gesondert konstruiert werden müssen, besteht ein höherer Softwareaufwand, da ein einfacher Webserver dafür nicht mehr ausreicht. Die meisten kommerziellen Server sind allerdings heute schon dazu in der Lage und es ist lediglich eine Frage des Betreuungsaufwandes, der natürlich ebenfalls steigt.
1.1.2.7 Klassifizierung der Daten
Im Gegensatz zum Softwareaufwand, der nur unwesentlich steigt, ist ein erheblich höherer Betreuungsaufwand gegeben. Er resultiert daraus, daß die Daten, die personalisiert dargestellt werden sollen, in den meisten Fällen klassifiziert werden müssen, um dem Computer eine Auswahl zu ermöglichen. Dies ist auch heute unmöglich zu umgehen, da eine automatische Erkennung des Inhalts zur Zeit unmöglich ist. Lediglich sehr grobe Klassifizierungen nach sehr allgemeinen Kriterien (z. B. Texte in Sport, Wirtschaft, Politik, … einteilen) können automatisch erfolgen, sind aber auch nicht immer zuverlässig. Es müssen also für jedes Datum Metadaten vorhanden sein, die entweder extern (z. B. in einer Datenbank) oder im Dokument selbst gespeichert sind (z. B. Schlüsselwörter im HTML-Header, Dateiinformationen wie Titel, Autor, …). Durch den Vergleich dieser Zusatzinformationen mit den Präferenzen des Benutzers kann dann die Software auswählen, was dem Benutzer präsentiert wird.
Ein für die Zukunft erfolgversprechendes Konzept zur Speicherung von Meta-Informationen im Dokument selbst ist XML. Hiermit können sowohl Struktur als auch zusätzliche Informationen in Dateien integriert werden. Dennoch ist auch dies keine absolute Lösung, da es sich um einen sehr offenen Standard handelt. So können beispielsweise alle möglichen Informationen über die Struktur und Hinweise zur Darstellung in einem Dokument enthalten sein, jedoch jegliche Klassifizierung fehlen. In einem anderen Fall könnte diese Klassifizierung auch nach völlig anderen Regeln und Mustern erfolgen, sodaß sie im Endeffekt vom verwendeten Programm nicht verstanden wird. Es ergibt sich also der Schluß, daß auch bei Verwendung von XML nur in gleicher Weise (nach den gleichen Regeln) annotierte Dokumente eine zusätzliche Klassifizierung erübrigen. In allen anderen Fällen und bis zur Verwendung dieses oder eines ähnlichen Standards wird sich eine explizite und händische Klassifizierung nur in sehr einfachen Fällen vermeiden lassen (Ausnahme: einige Anpassungsstrategien; Siehe 1.4).
1.2 Sinn und Zweck der Personalisierung
Personalisierung bringt sowohl für den Anbieter als auch für den Kunden Vorteile, sodaß es im beiderseitigen Interesse liegt, die (natürlich auch vorhandenen) Nachteile zu überwinden bzw. in Kauf zu nehmen.
Personalisierung hat für den Anbieter von Webseiten den Vorteil, daß er mehr Informationen über seine Benutzer erhält. Dies ermöglicht es ihm, bei ihm gebuchte Werbeeinschaltungen viel zielgerichteter zu plazieren und damit höhere click-through-Raten zu erreichen. In einer ähnlichen Weise wird dies bereits bei Suchmaschinen eingesetzt, wo die Werbung nach den eingegebenen Suchworten ausgewählt wird. Durch die viel extensiveren Informationen, die bei personalisierten Diensten zur Verfügung stehen, kann die Treffsicherheit noch weiter erhöht werden. Unter anderem auch dadurch, indem die Präsentation desselben Produkts dem jeweiligen (potentiellen) Kunden angepaßt wird. Weiters sind Anzeigen umso erfolgreicher, je besser Sie in die Umgebung passen, in die sie eingebettet sind: Eine Anzeige für schnelle Sportwagen wird auf der Seite mit Informationen über die Formel 1 erfolgreicher sein, als auf den Wirtschaftsnachrichten, auch wenn sie von derselben Person gelesen wird, die sich grundsätzlich dafür interessiert. Klickt der Benutzer nun auf eine Anzeige, so ermöglicht es Personalisierung dem Anbieter, auch gleich ein passendes Angebot zu stellen oder die Verkaufsabwicklung zu vereinfachen.
1.2.2 Erhöhte Kundenbindung bei Electronic Commerce
Der Einsatz von personalisierten Webseiten in Verbindung mit Electronic Commerce kann zu höherer Bindung der Kunden führen. Dies beruht auf mehreren Gründen:
1.2.3 Speziell abgestimmte Informationen
Auch für den Benutzer bietet Personalisierung einen großen Vorteil: Er erhält gezielt die Informationen, die ihn interessieren, zugestellt (Push-Technologie) oder zur Verfügung gestellt, ohne daß er sich selbst darum kümmern muß. Dies bedeutet eine (unter Umständen erhebliche) Arbeitsersparnis, was allgemein als positiv bewertet wird. Für den Benutzer sind wenige, dafür ausgewählte und relevante, Informationen von größerem Wert, als wenn er zwar enorme Mengen an Daten erhält, aber nicht weiß, ob und wenn ja wo, sich die wichtigen Teile befinden. Auch die Zusammenstellung von Informationen aus verschiedenen Quellen bringt zusätzlichen Wert, da dies eine eindeutige Zeit- und Arbeitsersparnis bedeutet.
Sowohl der einzelne Benutzer wie auch die Anbieter auf dem WWW profitieren von Personalisierung in der Weise, daß nur mehr relevante Informationen übertragen werden und daher das Bandbreitenproblem verringert wird. Im Gegensatz dazu werden sonst große Datenmengen geladen, weil wichtige Informationen in ihnen vermutet werden (z. B. einen Link in einer Suchmaschine gefunden). Doch in sehr vielen Fällen stellt sich dann heraus, daß die Information doch nicht die gewünschte ist und die Daten werden einfach vernichtet. Bis jedoch diese Entscheidung getroffen wird, wurde bereits eine erhebliche Bandbreite belegt und stand für wirklich wichtige Informationen nicht zur Verfügung.
Dies kann zwar das Bandbreitenproblem im Großen nicht lösen, aber zumindest verringern. Für den Betreiber einer einzelnen größeren Website kann dies jedoch einen erheblichen Unterschied machen, da er unter Umständen einen viel schmäleren Zugang zum Internet benötigt. Er hat dann zwar absolut weniger Besucher auf seiner Seite, doch sind diese für ihn wertvoller, da sie wirklich am Inhalt interessiert sind.
1.2.5 Verteilung von Informationen in Betrieben
Personalisierung kann auch dazu verwendet werden, Informationen in Betrieben schnell und zielsicher den Personen zur Kenntnis zu bringen, die sie benötigen. Dies ist ein entscheidender Fortschritt gegenüber firmeninternen Wissens-Datenbanken, die bei Bedarf durchsucht werden. Aufgrund des dazu notwendigen expliziten Aufwandes wird dies gerne unterlassen und daher trotzdem vieles mehrfach durchgeführt. Ist hingegen das Personalisierungssystem über die Arbeit unterrichtet, kann es automatisch verwandte Informationen suchen und neue Daten direkt an die Betroffenen weiterleiten, ohne daß der Ersteller der Information wissen muß, wen sie aller betrifft.
1.2.6 Genaue Benutzerüberwachung möglich
Natürlich gibt es auch (zumindest potentielle) Nachteile. Wenn man ein persönlich maßgeschneidertes Service erhält, ist es natürlich ohne weiteres möglich, die dafür unabdingbar notwendigen Informationen auch auf eine Weise zu verwenden, die nicht den Wünschen des Benutzers entspricht. Dies kann von verstärkter Werbung (nur lästig) über Vertreterbesuche (unangenehm) bis hin zur Verwertung durch staatliche Behörden (u.U. sehr unangenehm) gehen. Leider gibt es auch keine erfolgversprechenden Ansätze, um dieses Problem zu verhindern.
Die meisten der Suchmaschinen, die auch personalisierte Nachrichten anbieten (Siehe Link-Verzeichnis), bieten Informationen über die Verwendung der persönlichen Daten eher verschämt an (winzige Links auf nur wenigen Seiten, etwa auch nicht auf der Startseite). Allgemein ist der Standard in Bezug auf die Vertraulichkeit eher gering (z. B. Weitergabe von persönlichen Informationen nur dann, wenn die Firma annimmt, daß sie gesetzlich dazu verpflichtet sei). Dennoch sind wenigstens einige wichtige Grundmerkmale erfüllt: Informationen werden an Werbungs-Inserenten nur in aggregierter Form weitergegeben (z. B. 65 % der Besucher sind männlich) und die E-Mail Adressen werden nicht weitergegeben. Ebenso kann der Empfang von weiteren Informationen oder Werbungen unterbunden werden.
Dennoch ist meiner Meinung nach eine allgemeine Regelung, welche Verwendung der persönlichen Daten erlaubt ist, notwendig, wobei auch Überwachung und Sanktionen miteinbezogen werden müssen. Nur dann haben Websites mit Personaliserung wirklich die Chance, das Vertrauen der Besucher zu erhalten.
1.3 Wiedererkennen des Benutzers
Um die angebotenen Informationen auf den einzelnen Besucher anzupassen, ist es notwendig, diesen Besucher zu identifizieren, da es undenkbar ist, jeweils alle Informationen bei jedem Besuch neu eingeben zu lassen (was auch jegliches Lernen aus Beobachtung des Benutzers verhindern würde). Dies ist mit erheblichen technischen Schwierigkeiten verbunden, unter anderem weil alle diese Mechanismen auch auf eine Art verwendet werden können, die nicht den Erwartungen des Benutzers entspricht. Ebenso gibt es sehr viele verschiedene technische Möglichkeiten, die jedoch alle verschiedene Nachteile haben, sodaß eine Kombination verwendet werden muß.
Es ist bei den im folgenden vorgestellten Möglichkeiten zu beachten, daß meistens nur der Rechner identifiziert wird, aber nicht unbedingt, welche Person diesen nun wirklich benützt. Dies bereitet in zweierlei Hinsicht Probleme:
1.3.1 Benutzername und Paßwort
Die einfachste und üblichste Form ist die, daß jeder Benutzer eine Kennung und ein Paßwort erhält, welche er beim Besuch der Seite auf einem Formular eingeben muß (Eine andere Art der Paßworteingabe siehe unter Punkt 1.3.6). Da HTML jedoch ein zustandsloses Protokoll ist (jede Seite wird einzeln und unabhängig von früheren Anforderungen gesondert geladen, wobei keine Informationen für spätere Anforderungen aufgehoben werden, wie z. B. der Browsertyp oder die Adresse des Anforderers), reicht dies nur aus, um eine einzige Seite zu personalisieren, die direkt auf die Eingabe folgende. Da dies jedoch nicht ausreicht, muß dieses Verfahren mit einem der unten angeführten kombiniert werden. Diese Methode hat den großen Vorteil, daß es die einzige ist, die wirklich den Benutzer identifiziert und nicht den Rechner oder etwas anderes (solange das Paßwort geheim bleibt).
Da das Paßwort jedoch leicht zu vergessen ist (insbesondere wenn man sich bei mehreren Diensten anmeldet, wo jeweils ein eigener Benutzername und ein eigenes Paßwort notwendig ist), werden oft zusätzliche Hinweise gegeben:
Im Hinblick darauf, welche Menge an persönlichen Informationen über dieses Paßwort zugänglich sind, ist die Sicherheit erschreckend gering: Unverschlüsselte Übertragung über das Internet durch Eingabe in Formulare, ungesicherter Versand über E-Mail, keinerlei zusätzliche Prüfungen, etc. Einzig und allein bei Websites, die auch kommerziell tätig sind (Electronic Commerce), sind die Sicherheitsanstrengungen größer, da zumindest bei der Übertragung von Kreditkartennummern auch das Problembewußtsein der Anwender höher ist und diese daher eine höhere Sicherheit verlangen.
Die in Verbindung mit der vorigen Variante üblichste Methode sind Cookies. Es handelt sich hierbei um kurze Textdateien, die der Webserver auf dem Rechner des Benutzers ablegt und auch wieder auslesen kann. Sie wurden unter anderem für genau diesen Zweck erfunden, aber von einigen Firmen auch für andere Zwecke mißbraucht und sind so in Verruf gekommen. Manche Benutzer lassen daher Cookies auf ihrem Computer grundsätzlich nicht zu.
Cookies ermöglichen es einer Website, ohne Befassung des Benutzers völlig unbemerkt die Identifizierung vorzunehmen und so die Seiten entsprechend zusammenzustellen. Dies ist für den Benutzer sicher die angenehmste Art, da er keinerlei Aktionen dafür setzen muß. Dennoch gibt es auch einige Nachteile:
All diese Nachteile sollen jedoch nicht darüber hinwegtäuschen, daß Cookies zur Zeit die komfortabelste (keine Paßworteingabe, …), einfachste (keine Aktion des Benutzer nötig; einfach zu verwenden) und verläßlichste (keine Probleme mit Schreibfehlern) Methode sind. Die einzigen Probleme, die damit nicht gelöst werden können, sind mehrere Benutzer an einem Computer und ein Benutzer mit mehreren Rechnern.
1.3.3 Spezielle URLs mit codierter Benutzerkennung
Eine Benutzerkennung kann auch direkt in einen URL codiert werden. Dies führt jedoch dazu, daß der URL praktisch unlesbar wird (Klartext wird aus Sicherheitsgründen nicht verwendet, sondern eine verschlüsselte Form) und man ihn sich nicht mehr merken kann, wodurch ein Transport zu einem anderen Rechner sehr schwierig wird. Er muß daher jedesmal aus einer E-Mail (Zusendung nach Anmeldung) oder einer Liste (Bookmarks) herausgepickt werden, was einigermaßen unkomfortabel ist. Hier wird weder der Benutzer noch ein bestimmter Rechner identifiziert, sondern allein die Kenntnis des URLs, was für eine eindeutige Identifizierung eine unsichere Sache ist (sie werden üblicherweise unverschlüsselt übertragen; dafür ist ein über die Schulter schauen und merken auszuschließen). Mit abnehmender Bedeutung des CGI-Interfaces gerät diese Form langsam in Vergessenheit, wird aber manchmal eingesetzt, wenn ein Benutzer keine Cookies auf seinem Rechner zuläßt.
Eine im Internet sehr einfache Möglichkeit ist, den Rechner, den ein Benutzer benützt, an seiner eindeutigen IP-Adresse zu erkennen. Da jedoch immer mehr Firmen dazu übergehen, nicht einfach global gültige Internet-Adressen zu verwenden (auch weil diese sehr knapp sind), sondern ein lokales Intranet mit privaten Adressen zu verwenden, ist diese Methode nur mehr sehr eingeschränkt verwendbar. Ein Intranet wird üblicherweise über einen Proxy oder einen Firewall an das Internet angeschlossen, wobei eine Adressumsetzung erfolgt (so auch bei praktisch allen Accounts bei einem Internet-Provider). In diesem Fall werden alle (dahinterliegenden) privaten Adressen auf eine einzige externe Adresse umgewandelt, sodaß keinerlei Benutzererkennung mehr möglich ist. Zusätzlich kommt hinzu, daß es nicht möglich ist festzustellen, ob dieser Fall vorliegt oder eine global eindeutige Adresse verwendet wird (und auch nur eine geringe Anzahl der Internet-Teilnehmer darüber informiert ist, welcher Fall für sie zutrifft). Auch hier stellt sich das Problem, daß nur der Rechner und nicht der Benutzer identifiziert wird.
Viele Services verwenden spezielle Programme (eigenständige Browser, die entweder nur Ihre Daten darstellen können, oder auch einen Webbrowser integriert haben oder in einen Webbrowser eingebaut werden), um Ihre Daten darzustellen. Dies ist insbesondere bei Push-Technik üblich, da kein allgemeiner Standard existiert. Diese Software kann natürlich feststellen, auf welchem Computer sie läuft, welcher Benutzer eingeloggt ist und diese Daten dann über das (spezielle) Protokoll an den Server schicken, welcher dann Seiten persönlich maßschneidern kann. Bisher wurden solche Programm aber nur dazu verwendet, nach der eingestellten Konfiguration bestimmte Kategorien von Daten vom Server zu holen/zu empfangen und anschließend darzustellen, die Personalisierung erfolgte also auf dem Rechner des Benutzers und nicht des Anbieters. Dies erlaubt eine größerer Freiheit in den angebotenen Diensten und der Darstellung, hat jedoch auch mehrere Nachteile:
Bei einer Minimalversion eines zusätzlichen Programmes übernimmt dieses nur die Identifizierung des Benutzers und überläßt die restliche Arbeit dem Server. Dies beseitigt zwar einige Probleme, die grundlegenden Nachteile bleiben aber bestehen.
1.3.6 Login über Benutzername und Paßwort (HTTP-Protokoll)
In den Spezifikationen des HTTP-Protokolls, das für die Übertragung von WWW-Seiten verwendet wird, ist die Möglichkeit der Authentifizierung des Benutzers vorgesehen. In der derzeit fast überall verwendeten Version 1.0 erfolgt die Übertragung jedoch im Klartext (Bestimmte Server/Browser erlauben auch proprietäre (sichere), aber nicht allgemein verwendbare, Übertragungarten). Bei Version 1.1 existiert ein besseres System (Name und Paßwort werden verschlüsselt übertragen) erst als Vorschlag. Das größte Problem hierbei ist, daß die meisten Webserver mit diesem System nur den Zugriff zu festen Seiten regeln können, es aber keine Schnittstelle gibt, um aufgrund der empfangenen Identifikation spezielle Seiten zusammenszustellen.
Bei dieser Methode wird vor dem Senden jeder Seite vom Server eine Identifizierung des Benutzers verlangt. Der Benutzer muß Name und Paßwort aber nur einmal eingeben, da beides vom Browser gespeichert und bei der nächsten Anfrage wieder verwendet wird. Die Sicherheit dieses Ansatzes hängt davon ab, wie sicher der Browser die Daten speichert. Üblicherweise bleiben sie nur solange existent, wie das Programm läuft und gehen dann verloren. Das bedeutet allerdings, daß sich der Benutzer bei jedem neuen Start erneut identifizieren muß, was z. B. gegenüber Cookies ein Nachteil ist. Ein weiterer Nachteil ist noch, daß die Anfrage nach Name und Paßwort in einem Fenster erfolgt, auf das der Ersteller der Seite keinen Einfluß hat. Dies bedeutet, daß dem Benutzer ein ganz einfacher Dialog präsentiert wird, auf dem er Name und Paßwort eingeben soll, ohne daß irgendwelche Erläuterungen möglich sind. Bei direktem Zugriff auf eine solche Seite über einen URL weiß der Anwender nicht einmal, wohin diese Daten geschickt werden, da er erst danach die erste Seite präsentiert bekommt. Ein Einstieg wäre daher nur über den Umweg einer Informationsseite mit einem Link zur tatsächlichen (dann personalisierten) Seite möglich. Im Gegensatz dazu ist bei der Verwendung von Formularen eine völlig freie Gestaltung und beliebige Erläuterung möglich. Die Notwendigkeit einer Einstiegsseite läßt sich hier jedoch auch nicht verhindern, doch ist sie komfortabler, da dort die Benutzeridentifikation direkt eingegeben werden kann. Ein weiterer Nachteil ist, daß bei falschem Benutzernamen oder Paßwort es nur die Möglichkeiten gibt, andere Werte einzugeben, oder abzubrechen. Die Lieferung einer speziellen Seite (z. B. zur Neuanmeldung) ist nicht möglich. Siehe dazu auch das unter Punkt 1.3.1 angeführte in entsprechender Weise.
Bei diesen beiden Protokollen handelt es sich um Möglichkeiten, HTTP-Verbindungen (S-HTPP) bzw. allgemein Netzwerkverbindungen (SSL) zu sichern, indem der Nachrichteninhalt verschlüsselt und die Teilnehmer authentifiziert werden. Heute ist hauptsächlich SSL in Verwendung, dient aber nur dazu, den Server verläßlich zu identifizieren und die Übertragung zu verschlüsseln, wobei jedoch der Benutzer anonym bleibt. Auch diese Methode der Identifizierung ist für einen gesicherten Zugriff auf feste Seiten vorgesehen, sodaß eine Adaptierung auf eigens zusammengestellte Seiten nach der bei der Authentifizierung festgestellten Identität schwierig und wahrscheinlich nur über Zusatzprogramme möglich wäre. Da sich ein Benutzer mit einem von einer Zertifizierungsinstanz bestätigtem Zertifikat anmelden muß, ist keinerlei Anonymität mehr gegeben: der Besucher muß sich praktisch ausweisen, was eine psychologische Schranke ist. Auch hier stellt sich die Frage, wie dieses Zertifikat verwaltet wird: Wird der Benutzer oder der Web-Browser identifiziert, wie gut ist der Zugriff auf fremde Zertifikate abgesichert und wie einfach kann ein Zertifikat transportiert werden? Dennoch hat dieser Ansatz auch Vorteile: die Authentifizierung erfolgt vollkommen automatisch und somit unbemerkt vom Benutzer. Im Gegensatz zu Cookies muß hier auch nicht damit gerechnet werden, daß die Identifikations-Information jederzeit verschwinden kann.
1.4 Strategien zur Anpassung der Daten an den Benutzer
Nachdem der Benutzer identifiziert ist, müssen nun für ihn relevante Daten zusammengestellt werden. Dazu ist einerseits in den meisten Fällen eine (relativ einfache aber arbeitsaufwendige) Klassifizierung der angebotenen Daten und andererseits die Feststellung der Präferenzen dieses besonderen Benutzers notwendig. Das Abstimmen der Daten mit dem Interessensprofil sowie die Präsentation auf einer einzigen Seite in einem bestimmten Layout ist dann eine (technisch) meist relativ einfache Aufgabe. Mit welchen Möglichkeiten die Präferenzen und Wünsche der Benutzer herausgefunden werden können, wird im folgenden erläutert. Es werden hier die reinen Methoden mit den jeweiligen Vor- und Nachteilen erläutert. In vielen Fällen ist jedoch eine Mischung zweier oder mehrerer Methoden sinnvoll, da bei jeder Art zumindest ein besonders schwerwiegendes Probleme besteht, das für einen guten Erfolg umgangen werden sollte.
Die einfachste Möglichkeit, um die Interessen des Benutzers herauszufinden, ist, ihn einfach zu fragen. Dies erlaubt es dann, anhand von fertigen Regeln den Inhalt von Webseiten anzupassen: Wenn er als Sportart Surfen betreibt, wird ihm ein Meeresurlaub angeboten, betreibt er jedoch Bergsteigen, so werden andere Reiseziele vorgeschlagen. Zumindest als Einstieg ist diese Methode sehr geeignet, da initiale Daten eine relativ gute Personalisierung erlauben.
1.4.1.1 Vorteile
1.4.1.2 Nachteile
Diese Art der Benutzeranpassung besteht daraus, daß Links, denen öfter gefolgt wurde, immer höher in der Hierarchie hinaufwandern. Auf diese Art wird die Dauer der Navigation zu öfter benötigten Informationen stark verkürzt. In manchen Fällen erfolgt auch noch die Abfrage einer Bewertung der Qualität des Ergebnisses (z. B. bei Suchmaschinen), wodurch die Anpassung schneller vonstatten geht.
1.4.2.1 Vorteile
1.4.2.2 Nachteile
Der Gedanke hinter dieser Anpassungsstrategie ist, daß viele Personen eine Bewertung über die Daten abgeben und dann versucht wird, Gruppen von Benutzern mit ähnlichen Bewertungen zu finden. Nun wird versucht, jeden Benutzer in eine solche Gruppe einzuordnen, wodurch ihm alle Bewertungen dieser Gruppe als zumindest einigermaßen zutreffend zugeschrieben werden. Beispiel: Wenn ein Benutzer A und B mag und seine Gruppe sich für A und B und C interessiert, wird auch er C wahrscheinlich gut finden. Der Prototyp dieser Art von Personalisierung sind Kinofilme, die von Besuchern bewertet werden. Anhand der Einordnung in eine bestimmte Gruppe werden dann andere Filme empfohlen.
1.4.3.1 Vorteile
1.4.3.2 Nachteile
Diese Strategie beruht darauf, daß von einer unpersonalisierten Seite ausgegangen wird und man die Aktionen des Benutzer beobachtet. Aus der Auswahl der Seiten und der Verweilzeit darauf wird versucht, die Interessen des Benutzer zu identifizieren (ebenso über sonstige Aktionen wie Bookmark erstellen, lokal speichern, drucken, …). Diese werden dann über Regeln dazu verwendet, den Inhalt persönlich zu gestalten.
1.4.4.1 Vorteile
1.4.4.2 Nachteile
1.4.5 Fertige statistische Profile
Bei dieser Methode werden dem Benutzer nur einige wenige Fragen gestellt, die sich kaum oder gar nicht auf den eigentlichen Inhalt der Personalisierung beziehen. Aufgrund der Antworten wird der Benutzer dann in eine statistische Gruppe eingeordnet (z. B. jung, männlich, sportlich, Technikfreak). Durch diese Einordnung werden dann die von dieser Gruppe statistisch festgestellten Interessen als für den Benutzer zutreffend angenommen.
1.4.5.1 Vorteile
1.4.5.2 Nachteile
2 Marktübersicht: Programme zur Personalisierung
In diesem Kapitel wird versucht, einen Überblick über die wichtigsten derzeit am Markt befindlichen Programme bzw. Programmpakete zu geben, welche die Personalisierung von Webseiten ermöglichen. Eine vollständige Auflistung aller Programme ist wegen des Umfangs nicht möglich, da viele Produkte den einen oder anderen Aspekt von Personalisierung beinhalten. Es wurde daher eine Auswahl getroffen, die explizit auf Personalisierung ausgerichtet sind oder starke Unterstützung dafür bieten.
Die Bewertung wurde nach von den Firmen eingeholten Informationen zusammengestellt, da ein praktischer Test aller Produkte in keinem Verhältnis zum Ergebnis stehen würde. Weiters sind auch nicht von allen Applikationen Demo-Versionen erhältlich. Der Großteil der Informationen wurde über das Internet eingeholt, wobei sowohl Web-Pages wie auch E-Mail zum Einsatz kam. Bei einigen Produkten wurden auch Prospekte herangezogen. Links zu den Webseiten der Produkte finden sich im Link-Verzeichnis unter Punkt 2: Produkte zur Personalisierung von Websites.
Am Beginn steht eine Zusammenfassung der Kriterien, nach denen die verschiedenen Produkte verglichen werden, dann folgt die Beschreibung der einzelnen Programme und am Ende eine Zusammenfassung der Ergebnisse.
Die Software wird nach folgenden Kriterien bewertet:
Dies ist ein Produkt der Firma OpenSesame. Einige Informationen konnten nicht direkt erhalten werden und beziehen sich auf die Online-Demo eGenie (Siehe auch unten).
Ein Produkt der Firma GuestTrack. Es sind keine besonders detaillierten Informationen auf der Website erhältlich. Weitere Informationen wurde per E-Mail angefordert.
IntelliWeb ist ein Produkt von MicroMass Communications Inc.
Firefly ist ein Produkt/Service der Firma Firefly Network Inc.
Ein Produkt von Microsoft Inc. aus der BackOffice Produktlinie.
Ein Produkt der Firma ObjectDesign Inc.
Hierbei handelt es sich nicht direkt um ein Produkt zur Personalisierung von Webseiten, sondern um eine objektorientierte Datenbank, für die es u. a. eine spezielle Erweiterung zur Personalisierung von Websites gibt. Dies bedeutet natürlich eine sehr große Flexibilität und Mächtigkeit, hat aber den Nachteil, daß viel selbst programmiert werden muß. Es sind jedoch bereits fertige Objetkte vorhanden, um die wichtigsten Teile schnell und einfach zu implementieren: Login, Registrierung neuer Benutzer, Änderungen des Benutzerprofil sowie Abspeicherung der Daten in der Datenbank (Paßwörter auch verschlüsselt). Interfaces zu Java und C++ sind vorhanden. Die verwendete Datenbank besitzt spezielle Mechanismen für Caching, sodaß nach eigenen Angaben eine sehr hohe Performance erreicht wird.
Das Produkt wird von folgenden Firmen verwendet: Time Warner Pathfinder Personal Edition, Time Warner Money, Hotmail, Excite, Global On-line Directory
Da es sich hier nicht um ein fertiges Produkt handelt, werden die verschiedenen Punkte nicht im einzelnen untersucht.
Ein Produkt der Firma BroadVision.
Ein Produkt der Firma Net Perceptions.
GroupLens ist kein eigentliches Produkt zur Webseiten-Personalisierung, sondern ein Modul, um Empfehlungen auf Grund von sowohl expliziten als auch impliziten Bewertungen der Benutzer abzugeben. Die eigentlichen Teile für die Personalisierung müssen selbst programmiert oder zugekauft werden.
Ein Produkt der Firma Art Technology Group (ATG). Es basiert auf dem Dynamo Application Server und ist komplett in Java geschrieben.
Ein Produkt der Firma Vignette.
Ein Produkt der Firma LikeMinds.
Ein Produkt der Firma WiseWire. Dieses Programm sucht eigenständig das Internet nach neuen Informationen ab und kategorisiert diese automatisch (und speichert sie lokal). Dies Kategorien werden als sogenannte "Wires" angeboten, wobei auch private Firmen-Wires möglich sind.
Ein Produkt der Firma Autonomy. AgentWare ist nur als Nebenprodukt zur Personalisierung einsetzbar. Der Hauptaugenmerk liegt auf der selbständigen Klassifizierung von Dokumenten nach von Agenten automatisch identifizierten Konzepten.
Die einzelnen Programme lassen sich grob in vier Kategorien einteilen:
Die untersuchten Programme können folgendermaßen eingeteilt werden, wobei die Abgrenzung zwischen Personalisierungssoftware und Web-Applikationen u. U. nicht immer ganz klar ist:
Je nach den verfolgten Zielen sollte daher ein Produkt aus der entsprechenden Kategorie ausgewählt werden. Innerhalb der Kategorie ist dann besonders auf die bestehende Hard- und Software-Umgebung sowie Programmier- bzw. Webseitenerstellungs-Erfahrung Rücksicht zu nehmen.
Kontaktinformationen:
Dipl.-Ing. Michael Sonntag
E-Mail:
sonntag@fim.uni-linz.ac.at
Adresse:
Universität Linz
Institut für Informationsverarbeitung und Mikroprozessortechnik (FIM)
Altenbergerstr. 69
A - 4040 Linz
Fax:
++43-732-2468-599
Telefon:
++43-732-2468-437