Εμφάνιση απλής εγγραφής

dc.creatorKolias, V.en
dc.creatorAnagnostopoulos, I.en
dc.creatorKayafas, E.en
dc.date.accessioned2015-11-23T10:35:12Z
dc.date.available2015-11-23T10:35:12Z
dc.date.issued2014
dc.identifier.isbn9789299007327
dc.identifier.urihttp://hdl.handle.net/11615/29528
dc.description.abstractIn this paper we present a preliminary analysis over the largest publicly accessible web dataset: The Common Crawl Corpus. We measure nine web characteristics from two levels of granularity using MapReduce and we comment on the initial observations over a fraction of it. To the best of our knowledge two of the characteristics, the language distribution and the HTML version of pages have not been analyzed in previous work, while the specific dataset has been only analyzed on page level.en
dc.source.urihttp://www.scopus.com/inward/record.url?eid=2-s2.0-84918773080&partnerID=40&md5=f3288647f52cc7ef76c99233e4d5451c
dc.subjectAnalog to digital conversionen
dc.subjectSocial networking (online)en
dc.subjectExploratory analysisen
dc.subjectMap-reduceen
dc.subjectPreliminary analysisen
dc.subjectPublicly accessibleen
dc.subjectWeb Corporaen
dc.subjectWeb dataseten
dc.subjectElectric variables measurementen
dc.titleExploratory analysis of a terabyte scale web corpusen
dc.typeconferenceItemen


Αρχεία σε αυτό το τεκμήριο

ΑρχείαΜέγεθοςΤύποςΠροβολή

Δεν υπάρχουν αρχεία που να σχετίζονται με αυτό το τεκμήριο.

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής