www.wikidata.de-de.nina.az
Dieser Artikel behandelt einen Teil des offentlich zuganglichen Webs Zu einem sehr kleinen Teil davon einem verschlusselt betriebenen Peer to Peer Overlay Netz das nicht mit ublichen Webbrowsern zuganglich ist siehe Darknet Dieser Artikel oder Abschnitt bedarf einer grundsatzlichen Uberarbeitung Naheres sollte auf der Diskussionsseite angegeben sein Bitte hilf mit ihn zu verbessern und entferne anschliessend diese Markierung Das Deep Web auch Hidden Web oder Invisible Web bzw Verstecktes Web bezeichnet den Teil des World Wide Webs der bei einer Recherche uber normale Suchmaschinen nicht auffindbar ist Im Gegensatz zum Deep Web werden die uber Suchmaschinen zuganglichen Webseiten Clear Web Visible Web Sichtbares Web oder Surface Web Oberflachenweb genannt Das Deep Web besteht zu grossen Teilen aus themenspezifischen Datenbanken Fachdatenbanken und Webseiten Zusammengefasst handelt es sich um Inhalte die nicht frei zuganglich sind und oder Inhalte die nicht von Suchmaschinen indiziert werden oder die nicht indiziert werden sollen Clear Web Deep Web und Dark Web im Vergleich Inhaltsverzeichnis 1 Arten des Deep Web 1 1 Opaque Web 1 2 Private Web 1 3 Proprietary Web 1 4 Invisible Web 1 5 Truly Invisible Web 2 Datenbanken 2 1 Dynamisch erstellte Datenbank Webseiten 2 2 Hosts und Fachdatenbanken 3 Schatzung der Datenmenge 4 Siehe auch 5 Literatur 6 Weblinks 7 EinzelnachweiseArten des Deep Web BearbeitenNach Sherman amp Price 2001 1 werden funf Typen des Invisible Webs unterschieden Opaque Web undurchsichtiges Web Private Web privates Web Proprietary Web Eigentumer Web Invisible Web unsichtbares Web und Truly invisible Web tatsachlich unsichtbares Web Opaque Web Bearbeiten Das Opaque Web engl opaque zu dt undurchsichtig sind Webseiten die indiziert werden konnten zurzeit aber aus Grunden der technischen Leistungsfahigkeit oder Aufwand Nutzen Relation nicht indexiert werden Suchtiefe Besuchsfrequenz Suchmaschinen berucksichtigen nicht alle Verzeichnisebenen und Unterseiten einer Website Beim Erfassen von Webseiten steuern Webcrawler uber Links zu den folgenden Webseiten Webcrawler selbst konnen nicht navigieren sich sogar in tiefen Verzeichnisstrukturen verlaufen weder Seiten erfassen noch zuruck zur Startseite finden Aus diesem Grund berucksichtigen Suchmaschinen oft hochstens funf oder sechs Verzeichnisebenen Umfangreiche und somit relevante Dokumente konnen in tieferen Hierarchieebenen liegen und wegen der beschrankten Erschliessungstiefe von Suchmaschinen nicht gefunden werden Dazu kommen Dateiformate die nur teilweise erfasst werden konnen zum Beispiel PDF Dateien Google indexiert nur einen Teil einer PDF Datei und stellt den Inhalt als HTML zur Verfugung Es besteht eine Abhangigkeit von der Haufigkeit der Indizierung einer Webseite taglich monatlich Ausserdem sind standig aktualisierte Datenbestande wie Online Messdaten betroffen Webseiten ohne Hyperlinks oder Navigationssystem unverlinkte Webseiten Einsiedler URLs oder Orphan Seiten orphan engl fur Waise fallen ebenfalls darunter Private Web Bearbeiten Das private Web beschreibt Webseiten die indiziert werden konnten aber aufgrund von Zugangsbeschrankungen des Webmasters nicht indexiert werden Dies konnen Webseiten im Intranet interne Webseiten sein aber auch passwortgeschutzte Daten Registrierung und evtl Passwort und Login Zugang nur fur bestimmte IP Adressen Schutz vor einer Indizierung durch den Robots Exclusion Standard oder Schutz vor einer Indizierung durch die Meta Tag Werte noindex nofollow und noimageindex im Quelltext der Webseite Proprietary Web Bearbeiten Mit Proprietary Web sind Webseiten gemeint die indexiert werden konnten allerdings nur nach Anerkennung einer Nutzungsbedingung oder durch die Eingabe eines Passwortes zuganglich sind kostenlos oder kostenpflichtig Derartige Webseiten sind ublicherweise erst nach einer Identifizierung webbasierte Fachdatenbanken abrufbar Invisible Web Bearbeiten Unter das Invisible Web fallen Webseiten die rein technisch gesehen indexiert werden konnten jedoch aus kaufmannischen oder strategischen Grunden nicht indexiert werden wie zum Beispiel Datenbanken mit einem Webformular Truly Invisible Web Bearbeiten Mit Truly Invisible Web werden Webseiten bezeichnet die aus technischen Grunden noch nicht indexiert werden konnen Das konnen Datenbankformate sein die vor dem WWW entstanden sind einige Hosts Dokumente die nicht direkt im Browser angezeigt werden konnen Nicht Standardformate zum Beispiel Flash genauso wie Dateiformate die aufgrund ihrer Komplexitat nicht erfasst werden konnen Grafikformate Dazu kommen komprimierte Daten oder Webseiten die nur uber eine Benutzernavigation die Grafiken Image Maps oder Skripte Frames bedient werden konnen Datenbanken BearbeitenDynamisch erstellte Datenbank Webseiten Bearbeiten Webcrawler bearbeiten fast ausschliesslich statische Datenbank Webseiten und konnen viele dynamische Datenbank Webseiten nicht erreichen da sie tiefer liegende Seiten nur durch Hyperlinks erreichen konnen Jene dynamischen Seiten erreicht man aber oft erst durch Ausfullen eines HTML Formulars was ein Crawler momentan noch nicht bewerkstelligen kann Kooperative Datenbankanbieter erlauben Suchmaschinen uber Mechanismen wie JDBC einen Zugriff auf den Inhalt ihrer Datenbank gegenuber den normalen nicht kooperativen Datenbanken die den Datenbankzugriff nur uber ein Such Formular bieten Hosts und Fachdatenbanken Bearbeiten Hosts sind kommerzielle Informationsanbieter die Fachdatenbanken unterschiedlicher Informationsproduzenten innerhalb einer Oberflache bundeln Manche Datenbankanbieter Hosts oder Datenbankproduzenten selbst betreiben relationale Datenbanken deren Daten nicht ohne eine spezielle Zugriffsmoglichkeit Retrieval Sprache Retrieval Tool abgerufen werden konnen Webcrawler verstehen weder die Struktur noch die Sprache die benotigt wird um Informationen aus diesen Datenbanken auszulesen Viele Hosts sind seit den 1970er Jahren als Online Dienst tatig und betreiben in ihren Datenbanken teilweise Datenbanksysteme die lange vor dem WWW entstanden sind Beispiele fur Datenbanken Bibliothekskataloge OPAC Borsenkurse Fahrplane Gesetzestexte Jobborsen Nachrichten Patente Telefonbucher Webshops Worterbucher Schatzung der Datenmenge Bearbeiten nbsp Teile dieses Artikels scheinen seit nicht mehr aktuell zu sein Bitte hilf uns dabei die fehlenden Informationen zu recherchieren und einzufugen Wikipedia WikiProjekt Ereignisse Vergangenheit fehlend Nach einer Studie 2 der Firma BrightPlanet die im Jahr 2001 veroffentlicht wurde ergeben sich fur das Deep Web folgende Eigenschaften Die geschatzte Datenmenge des Deep Web ist etwa 400 bis 550 mal grosser als die des Surface Web Allein 60 der grossten Websites im Deep Web enthalten etwa 7 500 Terabyte an Informationen was die Menge des Surface Web um den Faktor 40 ubersteigt Es existieren angeblich mehr als 200 000 Deep Websites So haben laut der Studie Webseiten aus dem Deep Web durchschnittlich 50 mehr Zugriffe pro Monat und seien ofter verlinkt als Webseiten aus dem Surface Web Das Deep Web sei auch die am schnellsten wachsende Kategorie von neuen Informationen im Web Trotzdem sei der im Internet suchenden Offentlichkeit das Deep Web kaum bekannt Mehr als die Halfte des Deep Web sei in themenspezifischen Datenbanken angesiedelt Da BrightPlanet mit DQM2 eine kommerzielle Suchhilfe anbietet ist die moglicherweise stark uberschatzte Grossenangabe mit grosser Vorsicht zu betrachten Die von BrightPlanet geschatzte Datenmenge des Deep Web 3 muss um einige Daten bereinigt werden um einen moglichst prazisen Uberblick zu ermoglichen Dubletten aus Bibliothekskatalogen die sich uberschneiden Datensammlung des National Climatic Data Center 361 Terabyte Daten der NASA 296 Terabyte weitere Datensammlungen bspw National Oceanographic Data Center amp National Geophysical Data Center Right to know Network Alexa Anhand der Anzahl der Datensatze zeigt sich dass die Studie die Grosse des Deep Web um das Zehnfache uberschatzt Allerdings hat allein der Informationsanbieter LexisNexis mit 4 6 Milliarden Datensatzen mehr als die Halfte der Anzahl der Datensatze des Suchmaschinenprimus Google Das Deep Web ist daher sicher weitaus grosser als das Oberflachenweb In einer Untersuchung der University of California Berkeley aus dem Jahr 2003 wurden folgende Werte als Umfang des Internets ermittelt Surface Web 167 Terabyte Deep Web 91 850 Terabyte 4 Die gedruckten Bestande der Library of Congress in Washington eine der grossten Bibliotheken der Welt umfassen 10 Terabyte Siehe auch BearbeitenDarknet nicht mit dem Deep Web zu verwechselndes Peer to Peer Overlay Netz Information Retrieval Semantic Web UmweltinformationssystemLiteratur BearbeitenW L Warnick et al Searching the Deep Web In D Lib Magazine Januar 2001 Volume 7 Number 1 ISSN 1082 9873 Chris Sherman Gary Price The Invisible Web Finding Hidden Internet Resources Search Engines Can t See Cyberage Books 2001 ISBN 0 910965 51 X Website zum Buch Stand 2001 Dirk Lewandowski Philipp Mayr Exploring the Academic Invisible Web PDF 140 kB In Library Hi Tech 24 2006 4 S 529 539 Dirk Lewandowski Suchmaschinen verstehen Springer Heidelberg 2015 ISBN 978 3 662 44013 1 Alex Wright Exploring a Deep Web That Google Can t Grasp In New York Times 22 Februar 2009 Denis Shestakov Search Interfaces on the Web Querying and Characterizing TUCS Doctoral Dissertations 104 University of Turku Juni 2008 Weblinks BearbeitenWas die Suchmaschine nicht findet Deutschlandradio 30 August 2006 Chris Sherman Gary Price The invisible web uncovering sources search engines can t see Memento vom 27 Juni 2004 im Internet Archive University of Illinois at Urbana Champaign 2003 The Deep Web Memento vom 23 Dezember 2005 im Internet Archive Universitatsbibliothek Albany New York Was Google nicht findet Universitatsbibliothek Bielefeld The Ultimate Guide to the Invisible Web The Online Education Database Die dunkle Seite des Internets In Handelsblatt 20 September 2010Einzelnachweise Bearbeiten Gary Price The Invisible Web uncovering information sources search engines can t see CyberAge Books Medford N J 2001 ISBN 0 910965 51 X englisch Michael K Bergman The Deep Web Surfacing Hidden Value In The Journal of Electronic Publishing Jahrgang 7 2001 Nr 1 Internet Archive Wayback Machine Memento vom 14 Marz 2006 im Internet Archive Internet Memento vom 15 Oktober 2004 im Internet Archive sims berkeley eduNormdaten Sachbegriff GND 7664173 9 lobid OGND AKS Abgerufen von https de wikipedia org w index php title Deep Web amp oldid 239016770