750 likes | 960 Views
Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger. Bettina Berendt Humboldt University Berlin, Institute of Information Systems www.wiwi.hu-berlin.de/~berendt. Dank an . meine KoautorInnen (die auf den folgenden Folien gewürdigt sind) und
E N D
Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems www.wiwi.hu-berlin.de/~berendt
Dank an ... meine KoautorInnen (die auf den folgenden Folien gewürdigt sind) und die Seminargruppen, die am EDOC-Projekt mitgearbeitet haben und mitarbeiten: Hanna Brekenfeld, Noppawan Bunyongasena, Thomas Dammeier, Gebhard Dettmar, Kai Dingel, Michael Ferber, Christoph Hanser, Oleg Ishenko, Beate Krause, Altug Kul, Toni Lohde, Egor Nikitin, Thomas Posner, Derya Saki, Mert Sengüner, Daniel Trümper
Semantic Web Mining = Semantic Web Mining = Semantic Web Mining
Agenda Makrokosmos BegriffeSemantic Web Mining Semantic Web Mining Semantic Web Mining Mikrokosmos BeispieleSemantics Mining Semantics Mining
Web structure mining Web usage mining Formen Knowledge discovery (aka Data mining): “the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” 1 Web Mining: die Anwendung von Data-Mining-Techniken auf Inhalt, (Hyperlink-) Struktur und Nutzung von Webressourcen. Webmining-Gebiete: Web content mining 1 Fayyad, U.M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (Eds.) (1996). Advances in Knowledge Discovery and Data Mining. Boston, MA: AAAI/MIT Press
Web Mining: Beispiele Webmining-Gebiete: Web content mining Web structure mining Web usage mining
Das Hauptproblem des Web Mining
Das Wikipedia 300 Component Model, generiert mit diskreter PCA http://cosco.hiit.fi/search/H300.html/topic_list Common phrases of selected components0 • process; water; air; pressure; gas; body of water; natural gas; high pressure; hot water; fresh water;1 • Mark; Gospel; Matthew; Luke; Rose; Virgin; Virgin Mary; Gospel of John; Gospel of Mark; Gospel of Luke;2 • part; text; Britannica; entry; Encyclopedia Britannica; Encyclop~¦dia Britannica; Encyclopaedia Britannica; domain Encyclop~¦dia Britannica; public domain Encyclop~¦dia Britannica; public domain text;3 • property; theorem; elements; proof; subset; axioms; proposition; natural numbers; fundamental theorem; mathematical logic;4 • Dove; AMD; Dove Streptopelia; imperial crown; Imperial army; imperial court; imperial family; Collared Dove Streptopelia; Imperial Russia;5 • side; feet; long time; long period; right side; left side; long distances; different types; short distance; opposite side;6 • David; bill; Bob; Jim; Allen; Dave; Current stars; former members; Bill Clinton; former President;7 • magazine; newspaper; political parties; public domain text; public opinion; political career; public schools; own right; political life; public service;8 • way; things; boy; cat; long time; same way; same thing; only way; different ways; good thing;11 • problems; zero; sum; digits; ~~; natural numbers; positive integer; mathematical analysis; decimal digits; natural logarithm;12 • population density; couples; races; total area; makeup; Demographics; median age; income; density; housing units; • Torres; Iraqi KASUMI KHAZAD Khufu; Granada; Spa; Fra; General information; General Public License; General Bernardo; New Granada; Torres Strait; • love; Me; Rolling Stones; love songs; Rolling Stone magazine; Love Me; Fall in Love; Meet Me; love story; professional wrestler; • Zusammenfassend – Schwächen rein statistischer Ansätze: • Interpretation der Resultate? • Existenz von Resultaten? • Korrektheit? • Inferenzen?
Das Semantic Web “The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in co-operation.” 1 “The Semantic Web provides a common framework that allows data to be shared and reused across application, enterprise, and community boundaries. It is a collaborative effort led by W3C with participation from a large number of researchers and industrial partners. It is based on the Resource Description Framework (RDF), which integrates a variety of applications using XML for syntax and URIs for naming.” 2 1Berners-Lee, T., Hendler, J., & Lassila, O. (2001). The Semantic Web. Sci. American, May. 2http://www.w3.org/2001/sw/ 3 Berners-Lee, T. (2000). Semantic Web XML2000. www.w3.org/2000/Talks/1206-xml2k-tbl/
Category structure: <RDF xmlns:r="http://www.w3.org/TR/RDF/" xmlns:d="http://purl.org/dc/elements/1.0/" xmlns="http://directory.mozilla.org/rdf"> <Topic r:id="Top"> <tag catid="1"/> <d:Title>Top</d:Title> <narrow r:resource="Top/Arts"/> .... </Topic> <Topic r:id="Top/Arts"> <tag catid="2"/> <d:Title>Arts</d:Title> <narrow r:resource="Top/Arts/Books"/> ... <narrow r:resource="Top/Arts/Artists"/> <symbolic r:resource="Typography:Top/Computers/Fonts"/> </Topic> .... </RDF> Resources: <RDF xmlns:r="http://www.w3.org/TR/RDF/" xmlns:d="http://purl.org/dc/elements/1.0/" xmlns="http://directory.mozilla.org/rdf"> ... <Topic r:id="Top/Arts"> <tag catid="2"/> <d:Title>Arts</d:Title> <link r:resource="http://www3...ca/…./file.html"/> </Topic> <ExternalPage about="http://www…ca/file .html"> <d:Title>John phillips Blown glass</d:Title> <d:Description>A small display of glass by John Phillips</d:Description> </ExternalPage> <Topic r:id="Top/Computers"> <tag catid="4"/> <d:Title>Computers</d:Title> <link r:resource="http://www.cs.tcd.ie/FME/"/> <link r:resource=”http://foo.asdfsa….."/> </Topic> </RDF> Semantic Web: Beispiel
Warum Semantic Web?Bsp. strukturierte Suche (1) – Metadaten gemäß DC
Semantische Suche: Bsp. 2 – Metadaten gem. DC + Domänenontologie
Was ist eine Ontologie? An ontology is „an explicit specification of a shared conceptualisation.“ (Gruber, 1993) Gruber, T.R. (1993). Towards principles for the design of ontologies used for knowledge sharing. In N. Guarino & R. Poli (Eds.), Formal Ontologies in Conceptual Analysis and Knowledge Representation Deventer, NL: Kluwer. Bozsak, Ehrig, Handschuh, Hotho, Maedche, Motik, Oberle, Schmitz, Staab, Stojanovic, Stojanovic, Studer, Stumme, Sure,Tane, Volz, & Zacharias (2002). KAON - Towards a Large Scale Semantic Web. In Kurt Bauknecht, A. Min Tjoa, & Gerald Quirchmayr (Eds.), E-Commerce and Web Technologies, Third International Conference, EC-Web 2002, Aix-en-Provence, France, September 2-6, 2002, Proceedings (pp. 304-313). Springer: LNCS 2455
cooperateswith(X,Y) • cooperateswith(Y,X) Ontologie-basierte Website-Modellierung OBJECT NAME PERSON PERSON TITLE PROJECT COOPERATES COOPERATES -- -- WITH WITH Ontology WORKS-IN RESEARCHER RESEARCHER Semantic Web Mining Andreas Hotho WORKS-IN DAMLPROJ URI-SWMining - Relational Metadata URI-AHO WORKS-IN COOPERATES COOPERATES - - WITH WITH URI-GST WWW
Das Hauptproblem des Semantic Web “Wer soll das alles machen?” <HTML><HEAD> <META NAME="DC.Creator" CONTENT="(Scheme=Freetext) Thomas Seilnacht <seilnach@i-st.net>"> <META NAME="DC.Title" CONTENT="(Scheme=Freetext) 10 Schritte zum Bau der eigenen Homepage"> <META NAME="DC.Date.Created" CONTENT="(Scheme=Freetext) 1998-10-02"> <META NAME="DC.Form" CONTENT="(Scheme=IMT) text/html"> <META NAME="DC.Identifier" CONTENT="(Scheme=URL) http://www.seilnacht.tuttlingen.com/HTML/Homepage.htm"> <META NAME="DC.Description" CONTENT="(Scheme=Freetext) Anleitung zum Bau einer Homepage mit dem Netscape Communicator"> <META NAME="DC.Subject.Keywords" CONTENT="(Scheme=Freetext) Homepage, HTML, Internet, FTP, Polyview, Programmieren, Frames, JavaScript, CGI-Script, Grundbegriffe, Grafik, Freeware, INFORMATISCHE GRUNDBILDUNG"> <META NAME="DC.Type" CONTENT="Kurs/Onlinekurs/Virtuelles Seminar"> <META NAME="DC.Language" CONTENT="Deutsch"> <META NAME="DC.Description" CONTENT="(Scheme=URL) http://dbs.schule.de/db/mlesen.html?Id=7915&KATEGORIE=medien">
Strategien zur Schaffung des Semantic Web • “institutionell”: Zwang / extrinsische Motivation • “sozial”: Verteilte Autorenschaft à la Open Source (example: dmoz.org) / intrinsische Motivation • “informatisch / HCI”: Tool-Support • “informatisch / Informationsverarbeitung” …
Semantic Web Mining: Eine Definition • Mining of the Semantic Web • Mining for the Semantic Web • The iterative process of (1) and (2), in which the semantics obtained by mining are re-used for mining again. Berendt, Stumme, & Hotho, Proc. ISWC 2002; Stumme, G., Hotho, A., & Berendt, B. (submitted). Semantic Web Mining – State of the Art and Future Directions.
Wissensbeiträge: Daten und Metadaten <BIBLIOGRAPHY><FLOAT><PAGENUMBER>136</PAGENUMBER></FLOAT> <HEAD>Literaturverzeichnis</HEAD> ... <CITATION WORKTYPE="journal" PUBLISHED="PUBLISHED"> <CUT ID="bib-45-">[2] </CUT><WORKAUTHOR>Albrecht, T. F.; Bott, K.; Meier, T.; Schulze, A.; Koch, M.; Cundiff, S. T.; Feldmann, J.; Stolz, W.; Thomas, P.; Koch, S. W.; Göbel; E. O.</WORKAUTHOR> <ARTICLETITLE>Disorder mediated biexcitonic beats in semiconductor quantum wells</ARTICLETITLE>, <WORKTITLE>Phys. Rev. B</WORKTITLE>, <PUBDATE>1996</PUBDATE>, <NUMBER>54</NUMBER>, <PAGES>4436</PAGES>, </CITATION> ... http://edoc.hu-berlin.de/diml/dtd/xdiml.dtd
Dissertation Markup Language DiMLhttp://edoc.hu-berlin.de/diml/dtd/xdiml.dtd ... <!ELEMENT citation (#PCDATA | email | url | note | workauthor | worktitle | articletitle | serialtitle | address | editor | publisher | edition | volume | number | version | pages | pubdate | bible | court | law | cut | pagenumber)*> <!ATTLIST citation id ID #IMPLIED label CDATA #IMPLIED workType (Book | Journal | Misc) #IMPLIED published (yes|no) 'yes'> <!ELEMENT note (#PCDATA | em | u | strong | br | sup | tt | sub | link | name | email | organization | term | foreign | url | footnote | endnote | glossref | indexref | pagenumber | q | citation | imath | im)*> <!ATTLIST note id ID #IMPLIED> <!ELEMENT workauthor (#PCDATA | given | surname | suffix | organization)*> <!ATTLIST workauthor role CDATA #IMPLIED ref IDREF #IMPLIED id ID #IMPLIED> ... <!ELEMENT worktitle (#PCDATA | em | u | strong | br | sup | tt | sub | pagenumber)*> <!ATTLIST worktitle id ID #IMPLIED type CDATA #IMPLIED > <!ELEMENT articletitle (#PCDATA | em | u | strong | br | sup | tt | sub | pagenumber)*> <!ATTLIST articletitle id ID #IMPLIED type CDATA #IMPLIED > ...
Wenn es diese Daten und Metadaten einmal gibt ... • ... dann unterstützen sie leistungsfähige Suchen in verteilten Archiven (z.B.) elektr. Abschlussarbeiten u. Dissertationen (ETDs) • i.d.R. mit OAI-Metadaten-Harvesting • Beispiele: • www.ndltd.org • z.Z. 154 Mitglieder / Repositorien • http://www.cybertesis.net • z.Z. 27 Mitglieder / Repositorien • Vorteile für die Autoren: • Kostenfreie Publikation, hochwertige Archivierung • Garantie der langfristigen Lesbarkeit (50 Jahre) • Authentizität & Integrität • Semantische Durchsuchbarkeit
Problem 1: Es ist nicht einfach (und es macht keinen Spaß) • Seit Beginn von EDOC (1997): Anteil der Online-Diss. ~20% (13% incl. Medizinische Fakultät) • Befragung aller DoktorandInnen und HabilitandInnen (knapp 2500 Personen, 12-14% antworteten) • Hauptergebnisse bzgl. Bekanntheit und Nutzung von EDOC-Diensten: • Probleme im Informationsfluss Marketing und Service • Die Erstellung der Metadaten wird als mühselig und schwierig empfunden – insbesondere die I.d.R. nachträglich vorgenommene Literatur-Formatierung [Berendt, Brenstein, Li, & Wendland, Proc. ETD 2003; Berendt, Proc. AAAI Spring Symposium KCVC, 2005]
… und das hat Folgen <BIBLIOGRAPHY><FLOAT><PAGENUMBER>136</PAGENUMBER></FLOAT> <HEAD>Literaturverzeichnis</HEAD> <CITATION WORKTYPE="journal" PUBLISHED="PUBLISHED"> <CUT ID="bib-15-">[1] </CUT><WORKAUTHOR>Agarwal, R.; Krueger, B. P.; Scholes, G. D.; Yang, M.; Yom, J.; Mets, L.; Fleming, G. R.</WORKAUTHOR>U<ARTICLETITLE>ltrafast energy transfer in LHC-II revealed by three-pulse photon echo peak shift measurements</ARTICLETITLE>, <WORKTITLE>J. Phys. Chem. B</WORKTITLE>, <PUBDATE>2000</PUBDATE>, <NUMBER>104</NUMBER>, <PAGES>2908</PAGES>, </CITATION> ...
Cardona, M., & Marx, W. (2004).Verwechselt,vergessen,wiedergefunden. Referenzen–das fehlerhafte Gedächtnis[...] Physik Journal, 3 (11), 27-29. Warum ist das ein Problem?
Q: Wissensbereitstellung als Nebeneffekt anderer Aktivitäten? (hier: Websuche) Ein 3. Hauptergebnis der Befragung: • weitgehend unbekannt und ungenutzt sind • strukturiertes Schreiben • strukturierte Suche Frage: Macht die Site Leser zu Autoren? Daten aus dem Webserver-Log • 10,992 Sessions (210,655 Seiten) aus einer Woche 2003 (gegen Ende der ersten Befragung) • Methoden: semantische Anreicherung, Assoziationsregel- und Sequenzmining (Tools: WEKA, WUM); Clustering, Klassifikation
Non-semanticWeb Usage Mining 80.136.155.126 - - [29/Mar/2003:00:02:00 +0100] "GET /favicon.ico HTTP/1.1" 200 1406 "-" "Mozilla/5.0 (Windows; U; Win 9x 4.90; de-DE; rv:1.0.1) Gecko/20020823 Netscape/7.0" 80.136.155.126 - - [29/Mar/2003:00:02:00 +0100] "GET /dissertationen/style/did.css HTTP/1.1" 200 10301 "http://edoc.hu-berlin.de/conferences/conf2/Kuehne-Hartmut-2002-09-08/HTML/kuehne-ch1.html" "Mozilla/5.0 (Windows; U; Win 9x 4.90; de-DE; rv:1.0.1) Gecko/20020823 Netscape/7.0" 66.196.72.44 - - [29/Mar/2003:00:02:38 +0100] "GET /../projekte/epdiss/kolloqu/schu/slide4.html HTTP/1.0" 400 379 "-" "Mozilla/5.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html)" 66.196.72.44 - - [29/Mar/2003:00:03:09 +0100] "GET /humboldt-vl/hofmann-hasso/PDF/Hofmann.pdf HTTP/1.1" 200 94881 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Q312461)" 66.196.72.21 - - [29/Mar/2003:00:04:14 +0100] "GET /dissertationen/biologie/kernekewisch-michaela/HTML/kernekewisch-vita.html HTTP/1.0" 200 7418 "-" "Mozilla/5.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html)" 64.68.82.27 - - [29/Mar/2003:00:04:21 +0100] "GET /download/kume/r-lailach-hesse.PDF HTTP/1.0" 200 179357 "-" "Googlebot/2.1 +http://www.googlebot.com/bot.html)" 193.7.255.242 - - [29/Mar/2003:00:07:08 +0100] "GET /dissertationen/radspieler-alexander-2000-09-20/HTML/radspieler-ch2.html HTTP/1.1" 304 - "-" "Firefly/1.0 (compatible; Mozilla 4.0; MSIE 5.5)" Problem: URLs sind nicht semantisch. Eine Analyse der Daten in dieser Form bringt keine Erkenntnis!
Ontologie-basierte Verhaltensmodellierung: URLs und Anwendungsereignisse URL Webseite mit Inhalt Gewünschter Dienst Erhaltener Inhalt Berendt, B., Stumme, G., & Hotho, A. (2004). Usage mining for and on the Semantic Web. In H. Kargupta, A. Joshi, K. Sivakumar, & Y. Yesha (Eds.), Data Mining: Next Generation Challenges and Future Directions. Menlo Park, CA: AAAI/MIT Press.
… … Datenvorbereitung: Semantische Anreicherung TOP HOME AUTHOR SEARCH DOC OTHER HINWEISE OAI FULLTEXT META RESULT DISS OTHER DOC OTHER PROJECT ADVICE LIST MASTER … … DNB ABSTRACT TEMPLATE … AUTHOR ACCESS README KEYWORD CONFERENCE ABSTRACT … FAQ ACCESS … … LATEX PUBLIC READ regexpr.txt: mapping from URLs to concepts HOME edoc\.hu-berlin\.de\/$ AUTHOR-START \/e_autoren_en\/$ DISS-ABSTRACT \/abstract\.php3\/habilitationen\/ AUTHOR-ADVICE \/e_autoren\/hinweise\.php\?nav=.* AUTHOR-ADVICE \/e_rzm\/hinweise\.php.* ... … DIML … STUDY … … CMS
B A C Resultat der Datenvorbereitung: Datenmodellierung • Ein Zugriff (request) entspricht [dem Interesse an] • einem Konzept • einer (Multi-)Menge von Konzepten • einer strukturierten Menge von Konzepten • Ein Merkmalsträger ist • eine Session, betrachtet als eine (Multi-)Menge von Zugriffen • eine Session, betrachtet als eine Sequenz von Zugriffen • eine Session, betrachtet als ein Graph von Zugriffen • ein Nutzer, modelliert durch • (ggf. aggregierte) Attribute seiner Session(s) + ggf. • andere Attribute (z.B. Wohnort, Einkommen, Transaktionshistorie) A B C A B A C A B C
Semantic Web Usage Mining – Schritt 2: Musterentdeckung – Bsp. Sequenzmining “Find out pages that are usually visited together and inspect the navigation paths between them.” Sequence miner WUM (http://www.hypknowsys.de) select t from node as a b, template # _ a * b as t where a.accesses > 100 and a.support > 100 and b.accesses > 50 and b.support > 50 and ( b.support / a.support ) > 0.5 • - only paths starting from author-relevant content • and a.url startswith “AUTHOR”
Beliebte Eintrittspunkte und 1. Schritte “Leser“ gehen direkt zu Dissertationen u. bleiben dort.
Pfade zur Formatvorlage “Autoren“ bleiben bei Autoren-Inhalten.
Leser und Autoren sind unterschiedliche Gruppen; Leser werden nicht zu Autoren (jedenfalls nicht in einer Session) • Nur wenige Besucher nutzen die interne Suchmaschine, und sie erfahren die strukturierte Suche nicht als effektive oder effiziente Suchoption. • Eine separate Fragebogenstudie unterstützt diesen Befund. • Die Nutzung externer Suchmaschinen macht den Zugang zu Dissertations-Volltexten wahrscheinlicher. Problem 2: Wissensbereitstellung ergibt sich nicht als Nebeneffekt anderer Aktivitäten (hier: Websuche)
Exkurs: Analyse bei gegebener Domänen-Ontologie: ka2portal.aifb.uni-karlsruhe.de Gibt es verschiedene “Suchtypen” in diesem Onlinekatalog? Welche (Kombinationen von) Suchoptionen sind populär? Was signalisiert dieses über das inhaltliche Interesse der Nutzer?
affiliation Semantics of requestsStep 1: Domain ontology • community portal ka2portal.aifb.uni-karlsruhe.de • ontology-based: • Knowledge base in F-Logic • Static pages: annotations • Dynamic pages: generated from queries • Queries also in F-Logic • Logs contain these queries [Oberle, Berendt, Hotho, & Gonzalez, Proc. AWIC 2003]
Semantics of requests Step 2: Modelling requests and sessions-as-sets An example query with concepts and relations: FORALL N,PEOPLE <-PEOPLE: Employee[affiliation->> "http://www.anInstitute.org"] and PEOPLE:Person[lastName->>N]. • RESEARCHER • PERSON • PROJECT • PUBLICATION • RESEARCHTOPIC • EVENT • ORGANIZATION • RESEARCHINTEREST • LASTNAME • TITLE • ISABOUT • EVENTS • EVENTTITLE • WORKSATPROJECT • AUTHOR • AFFILIATION • ISWORKEDONBY • PROGRAMCOMMITTEE • EMPLOYS • NAME • RESEARCHGROUPS • EMAIL Query = feature vector of concepts + relations Session = feature vector of concepts + relations, summed over all queries in the session Clustering, Association rules, Classification, ...