Blogy       Lidé.cz       Spolužáci.cz       Hry.cz       Seznam       Email       Novinky.cz       Super.cz
Seznam blog
informace o dění v Seznamu
Článek
08.06.2011 16:45 - Produkťáci - trvalý odkaz

15 let hledání na Seznamu

Seznam.cz je letos na českém internetu 15 let. Od jeho založení v roce 1996 se mnohé změnilo. Jak tedy vlastně vypadalo fulltextové hledání na svém počátku a jak vypadá dnes?

I když v roce 1997 přišel Seznam s prvním fulltextovým vyhledáváním, šlo jen o jakýsi doplněk hledání v katalogu stránek. Opravdové vlastní a plnohodnotné fulltextové vyhledání spustil Seznam na jaře 2005. Až to nahradilo původní hledání v katalogu. Databáze, které od jara 2005 vydávaly výsledky na dotazy uživatelů. Tehdy běžely na čtrnácti serverech a obsahovaly 30 000 000 dokumentů. Nicméně už v okamžik spuštění bylo zřejmé, že takový návrh fulltextu nebude konečný a rozmach internetu dával jasný signál, že vývoj se nesmí zastavit. A tak v březnu 2007 přišel zásadní milník – fulltext se připravil na prudký nárůst stránek na internetu a architektura fulltextu se stala škálovatelnou.

Zatímco v lednu 2008 Seznam fulltext vyhledával na 100 000 000 českých stránek, v září téhož roku to bylo už kolem 180 milionů. Ale nezůstalo jen u technologií „za oponou“. V roce 2008 se podařilo stránky s výsledky vyhledávání přizpůsobit potřebám zrakově postižených a také začít zpracovávat do hledání jiné formáty než klasické HTML stránky. Doplnili jsme tak PDF a vzápětí i další formáty jako DOC nebo power point prezentace. V září pak přišla druhá generace robota, který prochází internet a sbírá stránky. Dokázal zpracovat 400 stránek za vteřinu a spíše ho brzdily tehdy ještě pomalejší weby.

I roky 2009 a 2010 byly ve znamení velkých technologických změn. V únoru 2009 byla spuštěna nová verze tzv. Screenshotátoru, který dodává nalezeným stránkám ve vyhledávání obrázky s náhledy. Nově jsou k dispozici náhledy pro téměř 100% stránek. Ostatně tehdy byly výsledky vyhledávání Seznamu snad jediné na světě, které standardně náhledy ke stránkám vyhledávání poskytovaly.

Ale aby nezůstalo jen u vizuální části vyhledávání, tak říjen 2009 přinesl zásadní změnu ve zpracování a pochopení uživatelských dotazů. V podstatě šlo o to, že dotaz už nebyl zpracováván jako celek, ale byl rozložen a jednotlivá slova a slovní spojení, která jsou chápána podle desítek kritérií.

Velké novinky z roku 2009 Seznamu a jeho hledání přinesly Křišťálovou lupu v kategorii Vyhledávače. A blok změn započatý v roce 2009 vyvrcholil na podzim následujícího roku, kdy tato - dá se říci - změna filozofie vedla k razantnímu zvýšení kvality hledání.

S rostoucím počtem dokumentů, v září 2010 to bylo už 370 mil., v hledání a rozšiřujícími se funkcemi se zvyšuje i výpočetní náročnost. V roce 2010 mělo samotné hledání přes 100 serverů a robot běžel na desítkách serverů.

Jaká je současnost a budoucnost fulltextového hledání na Seznamu?

Před pár dny jsme nasadili nového vyhledávacího robota, který je po půl roce opět obrovským technologickým krokem kupředu. Nový robot dokáže zpracovat 1500 stránek za vteřinu, které si nejdřív zařadí do přípravné databáze. Dá se říct, že si vytváří vlastní kopii internetu. Má tak informace o miliardách stránek, ze kterých se vybírají řádově stovky milionů, které se nakonec dostanou k uživateli.

Když lidé shání bydlení, chtějí koupit nový automobil, motorku, pátrají po spolužácích ze školních lavic, nebo chtějí vědět, co se právě děje, přichází na služby Seznamu a hledají. A protože chceme, aby u nás naši uživatelé vždy našli to, co právě hledají, vyhledávání chceme i nadále rozvíjet a zlepšovat. Pro Seznam je neustále velmi důležitý vývoj technologií hledání. Práce na vyhledávání pro nás proto nasazením třetí generace robota rozhodně nekončí.

Petr Nevrlý
Petr

Komentáře
[1] 08.06.11 17:43:07 otoman -
Po jak dlouhé době screenshotátor znovu fotí web?
[2] 08.06.11 17:51:20 Michal Illich
Ehm, historii píšete dost zaujatě :) Co Empyreum Fulltext, Google a Jyxo? Ty podle vás nejsou "opravdové" či "plnohodnotné"? To, že v roce 2008 jste "začali zpracovávat do hledání jiné formáty než klasické HTML stránky. Doplnili jsme tak PDF a vzápětí i další formáty jako DOC nebo power point prezentace." je už jen detail. Zmíněné Jyxo (na Seznamu 2004-2005) i Google samozřejmě uměly doc+pdf už předtím. PS: Samozřejmě že netvrdím, že já zaujatý nejsem :)
[3] 08.06.11 18:02:49 petrox
[1] to záleží na více věcech. Třeba četnosti změn. Nebo hodnotě Sranku. Těch signálů je víc a každý má svou váhu. Konkrétnější být nemůžu. Optimální stav je, že když se stránka změní, tak se přefotí. Někdy v řádu dnů, někdy hodin či minut.
[4] 08.06.11 18:09:41 petrox
[2] jj, zaujatost se nedá v mém případě vyloučit:) Předchůdci "Seznam originál searche" jistě plnohodnotné jsou/byly. Článek jsem bral jako ohlédnutí za vývojem fulltextu přímo Seznamem.
[5] 08.06.11 19:59:50 Seznam
Nestačilo by Seznam za poslední 3 roky? http://vyhledavace.chose.cz/?category=0&dateFrom=07.06.2008&dateTo=07.06.2011
[6] 08.06.11 21:08:37 Dan
Kdyz si vzpomenu na roky 95-96... Oj to byly casy :)
[7] 09.06.11 09:41:41 practica - www -
Já přeji Seznamu a všem lidem, kteří stojí za jeho fungováním hodně štěstí, zdraví a tvůrčí invence do dalších let. Seznam používám léta a musím říci, že jako běžnému uživateli mi naprosto vyhovuje. A jestli se někomu nelíbí a hledá na něm chyby? Prosím ať jde jinam, nikdo mu nebrání použít jiný vyhledávač. Vyzkoušela jsem samozřejmě i jiné vyhledávače, ale pro mé potřeby mi Seznam vyhovuje, a pak, je přece NÁŠ!
[8] 10.06.11 00:13:24 nik
vsechno nejlepsi a hodne uspechu a zdaru
[9] 13.06.11 09:25:37 Martina
Já přeji Seznamu také hodně štěstí, sice nemá tak kvalitní fulltext jako Google, ale když vezmeme v úvahu miliardové příjmy v dolarech Googlu a milionové příjmy Seznamu v korunách, tak si myslím, že je to dobrá práce. Nemluvě o tom, že já jako Moravačka rozhodně hodlám podporovat českou firmu, protože ta na rozdíl od Googlu platí u nás daně.
[10] 14.06.11 18:33:47 Dominik
Hodně štěstí Seznam.cz!!!
Přidat komentář

 

  (5 písmen z obrázku)

 

 

 

Z důvodu ochrany proti spamu je nutné opsat číselný kód z obrázku.
* ... povinné údaje, délka textu je max. 1000 znaků.

Autor:
seznam
Další blogy:
Fulltext blog
Mapy.cz blog
Sklik.cz blog
PR blog
FC blog
Sreality.cz blog
Smobil blog

Kliknutím si přidáte nejnovější zprávy z tohoto blogu přímo na hlavní stránku Seznamu.

Archív:
červen 2011
PoÚtStČtSoNe
- - 1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 - - -