Kaip nukonkuruoti Google? I dalis – paieška

microscope01.jpg
(gonzales2010 nuotrauka)

Manau, kiekvienam pasitaikė nušvitimo, naudojantis įvairiais technologiniais produktais, akimirkų, kai galvoje sukirbėdavo mintis – „Tai taip paprasta – kodėl iki šiol jie to nepadarė?“ Aš ganėtinai dažnai tokių prigalvoju. Pradėjau rašytis jas, o dabar ketinu ir su jumis pasidalinti. Gal kai kurios iš jų atrodys paikos ar neįgyvendinamos, bet vistiek verta apie jas padiskutuoti – mes per daug laiko praleidžiame aptarinėdami esamus dalykus ir per mažai žiūrime į priekį.

Pradėsiu nuo technologijos su svarbos indeksu „1“ – Google paieškos. Nors tai absoliutus fenomenas internete tiek pagal naudojimo aprėptį, tiek ir pagal naudojimo dažnį, Google paieška nėra tobula. Antraip ji išvis neturėtų konkurentų. Tiesa, Live Search ar Yahoo! konkurencija yra pasyvi – besiremianti senų vartotojų prieraišumu. Aktyvesni veiksmai virsta naujų papildomų funkcijų diegimu, kas nesuteikia pranašumo prieš Google, o tik dar labiau apkrauna sąsają.

Naujokų bandymai įdomesni, bet irgi nevykę: Cuil bandė nukonkuruoti Google savo indekso dydžiu, bet nesugebėjo pati jame ką nors surasti; Ask, o dabar ir visiškai nauja (dar uždara) Wolfram Alpha žada geresnius atsakymus į žmogaus kalba surašytus klausimus („kodėl man šiandien taip nesiseka?“). Wolfram Alpha remiasi matematiniu kalbos modeliu, tačiau drįstu spėti iš anksto, kad veikiausiai tik anglų kalbos. Pernelyg jau skiriasi kinų, japonų, lietuvių, suahili, anglų, gruzinų ir t.t. kalbos struktūra, kad galima būtų vienu modeliu išspręsti natūralios kalbos užklausų problemą. Google tai puikiai žino ir naujokų nebijo.

Bet ar būtinas „raketų mokslas“ tam, kad paieška būtų tobulesnė? Man atrodo, kad ne. Pažiūrėkime į problemą – mums netrūksta paieškos rezultatų: ką beįrašytumėm, Google suranda tūkstančius ar milijonus rezultatų (netgi pati pataiso klaidingai įrašytus žodžius) – mums trūksta tvarkos ir prioritetizavimo pačiuose rezultatuose. Iš dalies rezultatų sąrašą galima valdyti su papildomais „jungikliais“, tačiau tai keblu ir ne visada duoda norimą efektą.

Sprendimas? HTML dekonstravimas ir skaidymas pagal (teksto) savybes. Leiskite pateikti jums pavyzdį: jei įrašote į paieškos laukelį „nikon d90“, ko ieškote – jį parduodančių parduotuvių, aprašymo, specifikacijų išklotinės, apžvalgų ir vertinimų, techninės pagalbos ir patarimų? Taip, jūs galite patikslinti paiešką prirašydami „apžvalga“, „techniniai duomenys“ ir pan., bet čia atsiranda dvi papildomos problemos – 1) kalbos (kokia kalba užrašysite papildomą žodį iki tokios ir susiaurinsite rezultatus), 2) SEO (daugybė svetainių surašo visus ieškomiausius žodžius, tačiau iš tiesų tokios informacijos neturi).

O dabar įsivaizduokime, kad Google ar jos konkurentė paieškos rezultatuose leidžia patikslinti paieškos ketinimą. Pavyzdžiui, prideda papildomus filtro mygtukus, kurie reiškia:

  • ilgesnis tekstas (ieškant apžvalgų ir straipsnių būtų išfiltruojami fiktyvūs puslapiai tik su nuorodomis ir parduotuvių katalogai);
  • HTML lentelė arba sąrašas (vėl gi pagal HTML žymas surandamos statistikos ar techninių duomenų lentelės, praleidžiant svetaines, kurios jų neturi);
  • nuoroda į failą (išmetant lauk tas „download!“ pasipuošusias svetaines, kurios pačios failų parsisiuntimui neturi, tačiau renka pajamas iš reklamos, nukreipdamos kitur);
  • forumas (padeda atmesti kitų tipų rezultatus, ieškant techninės problemos sprendimo);
  • anketa arba laiško forma (ieškant galimybės susisiekti su kūrėjais/gamintojais).

Galimi ir kiti naudingi variantai, pavyzdžiui, tik akademinių šaltinių parinkimas tiems atvejams, kai informacijos reikia mokslo darbui.

Iš dalies šias problemas Google sprendžia atskirais paieškos produktais paveikslėliams, diskusijų grupėms ar tinklaraščiams, bet santykinis jų populiarumas, lyginant su pagrindine Google paieška yra labai menkas.

Įdiegti tokį „ketinimų patikslinimą“ būtų labai paprasta. Juk Google turi suindeksavusi visus tinklalapius. HTML elementų aptikimas juose ar teksto ilgio nustatymas – juokų darbas. Bet jį padarius, bent jau man būtų daug paprasčiau surasti reikiamą informaciją tarp penkių milinonų atsakymų į kiekvieną mano paieškos užklausą…

Įrašo tema: internetas, organizacija ir žymos: , , , , , , . Pasižymėkite nuorodą. Parašykite komentarą ar įdėkite citatą:Nuorodos URL.

Komentarų (21)

  1. Parašytas 2009.5.1 (9:56) | Nuoroda

    Gera mintis, bet, manau, tai gerokai padidintų Google išnaudojamų resursų kiekį. Pliusas tas, jog skatintų tinklalapių autorius kurti kokybiškesnį turinį.

  2. Parašytas 2009.5.1 (10:16) | Nuoroda

    Buvo toks Yahoo projektukas nekomercinių ir komercinių paieškos rezultatų rūšiavimui http://www.radiocool.lt/yahoo-.....a-patys-... tik deja dabar jis atrodo yra „numiręs“

  3. insane
    Parašytas 2009.5.1 (11:22) | Nuoroda

    Manau google seniai yra apgalvojus panasius i si ir kitus variantus.

    • Parašytas 2009.5.1 (14:35) | Nuoroda

      Tik pasilaiko tai ateiciai?:) Galbut. Priedo jei zmogus per greit ras tai ko jis nori tai gali but kad nespes paziuret reklamos:)

    • Parašytas 2009.5.1 (17:21) | Nuoroda

      Aš ir manau, kad seniai jie dar geresnių idėjų prigalvoję, bet Google esmė yra paprastumas.

      Visų norų skirtingi, ir vienas ieško fotikų, o kitas gėlyčių savo sodui. Todėl dauguma būtų nepatenkinti, jei atsirastų specializuotos papildomos funkcijos.. Dabar jos yra, bet pasiekiamos tik specialiais linkais ar komandomis, ir todėl niekam netrukdo, kas apie jas nežino. O kas nori, tai susiranda per tą patį google. :)

      Šiaip Google dar galėtų padaryti personalizuotą, tai yra automatiškai per ilgą laiką prisitaikyti prie vartotojo, pagal jo paieškas. Arba pačiam leisti sužymėti mėgiamas kategorijas.

  4. galva neneša
    Parašytas 2009.5.1 (14:11) | Nuoroda

    „atsiranda dvi papildomos problemos – 1) kalbos (kokia kalba užrašysite papildomą žodį iki tokios ir susiaurinsite rezultatus), “
    O kinų rašto patirtis nieko nemoko? Jie parašo hieroglifais, ir kiekviena jų tauta skaito ir supranta tą užrašymą SAVA kalba. Tai yra, visai 40 tautų (ar pan. sk.) nacijai nereikia to paties įstatymo 40 tekstų skirtingomis šios valstybės tautų kalbomis. Tai kas trukdo hieroglifų principą panaudoti kaip kompiuterinį „esperantą“? Juolab, mums netektų, kaip kinams mokytis jų ir rašyti, nes taip padarytų kompiuteris.
    Štai įv. tautų internetiniuose tekstuose jų kalbomis yra žodžiai хлеб, Brot, bread, chleb, duona, pain, pane, хліб, ir t.t., tačiau visus juos kompiuterinė bendrakalbė konvertuoja ir susieja su ženklu pvz. .ﷲ░שּׁ, tokios formos jį laiko savo aruoduose. Tada, kažkam užklausus, mašinos interneto platybėse ieško ne tų visų žodžių po vieną, o tik šį hieroglifą atitinkančių, susietų su ﷲ░שּׁ ženklu. Ir užklausos į internetą eina ne хлеб, Brot, bread, chleb pavidalu, o automatiškai konvertuojamos į ﷲ░שּׁ !
    Pritaikius hieroglifų principą visas kompiuterijos bendravimas su žmogumi taptų paprastesnis. Nereiktų versti visų programų ir visų dialogų, nes kompiuterine bendrakalbe surašyti dialogai į ekraną būtų išvedami mano bendravimo kalba. O dabar išeina nauja programa, o lietuviška versija vėluoja nežinia kiek.

    • Parašytas 2009.5.1 (14:57) | Nuoroda

      Kalbėdamas apie HTML dekonstravimą panašius dalykus ir turėjau galvoje. Jei įvairiomis kalbomis parašytas žodis „lentelė“ skiriasi, tai HTML TABLE, TR ir TD yra visiems vienas. Tas pats yra su sąrašų UL ir OL, kitais elementais, kuriuos verta panaudoti filtrams.

  5. galva neneša
    Parašytas 2009.5.1 (14:46) | Nuoroda

    keista…
    o kas prarijo mano komentarą?… Tiek dirbau :(

    • galva neneša
      Parašytas 2009.5.1 (14:47) | Nuoroda

      ir dar tokią negražią galvą rodo! Manoji gražesnė! O kaip ją įdėti?

      • Parašytas 2009.5.1 (14:55) | Nuoroda

        Aš rekomenduočiau užsiregistruoti Intense Debate (http://www.intensedebate.com). Ten pat ir galvą galima įsidėti. :) Registruotų žmonių komentarai nesulaikomi peržiūrai – prie kitų dar pratinu sistemą. Labai atsiprašau už nepatogumus.

        • galva neneša
          Parašytas 2009.5.1 (15:03) | Nuoroda

          Ačiū, prajuokinot. Ir jokių nepatogumų. Pagalvojau, jog tai bus gaspadoriui žinutė, kad kažkas kažkur stringa. Bet atkakliai ir įkyriai reikalausiu patvirtinimo, jog manoji galva tikrai gražesnė! Juolab kad dekoruojama kelių dar užsilikusių IQ.

  6. Parašytas 2009.5.1 (16:01) | Nuoroda

    1) Hm… Intense Debate vienotokio profilyje rašoma, kad prie šio post'o turi būti vienotokio komentaras apie HTML lenteles, tačiau pačiame bloge jo nerodo… Bandžiau per skirtingas naršykles, tas pats…
    2) Viršuje rodo, kad esu prisijunges prie ID, tačiau apačioje prašo įvesti vardą.

    • Parašytas 2009.5.1 (16:23) | Nuoroda

      Matyt dar tebėra sichronizavimo problemų. Stebėsiu per išeigines ir ieškosiu sprendimo. Aš irgi per kelias vietas dabar skaitau komentarus. Kvailai čia gaunasi…

  7. Parašytas 2009.5.2 (4:45) | Nuoroda

    Nori apsiriboti moksliniais straipsniais? Naudokis google scholar: http://scholar.google.com/

    O HTML lentelės dar per plačiai naudojamos puslapio vaizdui formuoti, kad jų filtras būtų efektyvus ieškant specifikacijų. Manau, kad papildomas raktinis žodis „specifikacijos“ (ar kita kalba) nurungtų pagal tikslumą net nesušilęs.

  8. Parašytas 2009.5.2 (5:42) | Nuoroda

    Nesuprantu aš tavo meilės intense debate'ui. Kas prie jo neprisijungė, tas gauna posto antraštėse nuorodą į savo svetainę, kas prisijungė — į trečios šalies (intensedebate) puslapį. Tiesa, abu su nofollow. Čia taip skatinamas blogerių judėjimas? Tokia dabar „įdėk linką į kolegos tinklapį“ realizacija? Ir kodėl aš, komentatorius, turėčiau registruotis bei kurti profailą kažkokioje trečiojoje šalyje? Nori garantuoti, kad po mano adresu nepasirašinės kažkas kitas? Tam užtenka OpenID! Tačiau OpenID su intensedebate neveikia, jei pas juos nesi susikūręs profailo, kas išmeta per bortą bet kokią prasmę naudoti OpenID.

    Aš prižiūrėjau keletą prie interneto prijungtų kompų, kai Lietuvoje dar neveikė nė vienas HTTP serveris. Ir interneto esmė buvo decentralizacija, atvirumas naujovėms bei suderinamumas paremtas protokolų standartizacija, o ne vieno produkto naudojimu. Todėl į visas programas ir tarnybas, kurios prieštarauja šiai įdėjai aš žiūriu labai skeptiškai. Ir manau, kad anksčiau ar vėliau jos bus „padėtos į vietą“ konkurentų, kurie laikosi tų principų. Intense debate aš matau kaip sistemą, kuri siekia apžioti visus blogofermoms nepriklausančius blogus ir atsistoti į poziciją, kad be jos nė krust. O ką duoda atgal? Blizgučius.

  9. Parašytas 2009.5.2 (7:08) | Nuoroda

    Nepavadinčiau savo santykių su IntenseDebate meile – anaiptol. Daugiau vargo kol kas turiu negu naudos. Nelengvai man ją čia sekėsi diegti.

    Dėl „follow“ – mano galva tai nėra „pakiša“ už komentarą. Daugiau čia: http://www.nezinau.lt/kam-ziniatinkliui-semantika

    Dėl nuorodų – užsiregistravęs IntenseDebate pats pasirenka, kokia informacija matoma prie jo avataro, įskaitant svetainę, RSS, Twitter, Facebook ir visa kita, ko tik jis nori.

    Kam registruotis IntenseDebate sistemoje? Kol kas – nebent tam, kad patogiau būtų komentuoti nežinau.lt ir Radiocool (bei kai kuriose užsienio svetainėse). Nors patogumas – tik maža dalis privalumų. Daugiau čia: http://www.nezinau.lt/socialin.....u-tinkla...

    Kodėl netinka OpenID? Iškart pateikei atsakymą – OpenID nėra universalus prisijungimo būdas, nes jis, deja, neatsiejamas nuo jį išdavusio šaltinio reputacijos. Todėl iš išvaizdos jie visi vienodi, o iš tikrųjų yra „geri“ OpenID ir „blogi“. Mano OpenID išdavėjo net nebėra „gyvo“. Daug daugiau naudos turiu iš Google paskyros ar Facebook Connect.

    Dėl „vieno produkto“. IntenseDebate nėra pakaitalas. Komentarai sinchronizuojami tarp WP ir IntenseDebate. Taigi tas „nė krust“ realybėje reiškia „išjungti įskiepį“ – ir gali krutėti, kiek nori – visi komentarai savo vietoje.

    O dėl blizgučių tai galima daugiau pasiskaityti IntenseDebate tinklalapiuose arba antroje mano įdėtoje nuorodoje.

  10. Parašytas 2009.5.2 (7:08) | Nuoroda

    Nepavadinčiau savo santykių su IntenseDebate meile – anaiptol. Daugiau vargo kol kas turiu negu naudos. Nelengvai man ją čia sekėsi diegti.

    Dėl „follow“ – mano galva tai nėra „pakiša“ už komentarą. Daugiau čia: http://www.nezinau.lt/kam-ziniatinkliui-semantika

    Dėl nuorodų – užsiregistravęs IntenseDebate pats pasirenka, kokia informacija matoma prie jo avataro, įskaitant svetainę, RSS, Twitter, Facebook ir visa kita, ko tik jis nori.

    Kam registruotis IntenseDebate sistemoje? Kol kas – nebent tam, kad patogiau būtų komentuoti nežinau.lt ir Radiocool (bei kai kuriose užsienio svetainėse). Nors patogumas – tik maža dalis privalumų. Daugiau čia: http://www.nezinau.lt/socialin.....u-tinkla...

    Kodėl netinka OpenID? Iškart pateikei atsakymą – OpenID nėra universalus prisijungimo būdas, nes jis, deja, neatsiejamas nuo jį išdavusio šaltinio reputacijos. Todėl iš išvaizdos jie visi vienodi, o iš tikrųjų yra „geri“ OpenID ir „blogi“. Mano OpenID išdavėjo net nebėra „gyvo“. Daug daugiau naudos turiu iš Google paskyros ar Facebook Connect.

    Dėl „vieno produkto“. IntenseDebate nėra pakaitalas. Komentarai sinchronizuojami tarp WP ir IntenseDebate. Taigi tas „nė krust“ realybėje reiškia „išjungti įskiepį“ – ir gali krutėti, kiek nori – visi komentarai savo vietoje.

    O dėl blizgučių tai galima daugiau pasiskaityti IntenseDebate tinklalapiuose arba antroje mano įdėtoje nuorodoje.

  11. Parašytas 2009.5.2 (7:08) | Nuoroda

    Nepavadinčiau savo santykių su IntenseDebate meile – anaiptol. Daugiau vargo kol kas turiu negu naudos. Nelengvai man ją čia sekėsi diegti.

    Dėl „follow“ – mano galva tai nėra „pakiša“ už komentarą. Daugiau čia: http://www.nezinau.lt/kam-ziniatinkliui-semantika

    Dėl nuorodų – užsiregistravęs IntenseDebate pats pasirenka, kokia informacija matoma prie jo avataro, įskaitant svetainę, RSS, Twitter, Facebook ir visa kita, ko tik jis nori.

    Kam registruotis IntenseDebate sistemoje? Kol kas – nebent tam, kad patogiau būtų komentuoti nežinau.lt ir Radiocool (bei kai kuriose užsienio svetainėse). Nors patogumas – tik maža dalis privalumų. Daugiau čia: http://www.nezinau.lt/socialin.....u-tinkla...

    Kodėl netinka OpenID? Iškart pateikei atsakymą – OpenID nėra universalus prisijungimo būdas, nes jis, deja, neatsiejamas nuo jį išdavusio šaltinio reputacijos. Todėl iš išvaizdos jie visi vienodi, o iš tikrųjų yra „geri“ OpenID ir „blogi“. Mano OpenID išdavėjo net nebėra „gyvo“. Daug daugiau naudos turiu iš Google paskyros ar Facebook Connect.

    Dėl „vieno produkto“. IntenseDebate nėra pakaitalas. Komentarai sinchronizuojami tarp WP ir IntenseDebate. Taigi tas „nė krust“ realybėje reiškia „išjungti įskiepį“ – ir gali krutėti, kiek nori – visi komentarai savo vietoje.

    O dėl blizgučių tai galima daugiau pasiskaityti IntenseDebate tinklalapiuose arba antroje mano įdėtoje nuorodoje.

  12. Parašytas 2009.5.2 (7:09) | Nuoroda

    Nepavadinčiau savo santykių su IntenseDebate meile – anaiptol. Daugiau vargo kol kas turiu negu naudos. Nelengvai man ją čia sekėsi diegti.

    Dėl „follow“ – mano galva tai nėra „pakiša“ už komentarą. Daugiau čia: http://www.nezinau.lt/kam-ziniatinkliui-semantika

    Dėl nuorodų – užsiregistravęs IntenseDebate pats pasirenka, kokia informacija matoma prie jo avataro, įskaitant svetainę, RSS, Twitter, Facebook ir visa kita, ko tik jis nori.

    Kam registruotis IntenseDebate sistemoje? Kol kas – nebent tam, kad patogiau būtų komentuoti nežinau.lt ir Radiocool (bei kai kuriose užsienio svetainėse). Nors patogumas – tik maža dalis privalumų. Daugiau čia: http://www.nezinau.lt/socialin.....u-tinkla...

    Kodėl netinka OpenID? Iškart pateikei atsakymą – OpenID nėra universalus prisijungimo būdas, nes jis, deja, neatsiejamas nuo jį išdavusio šaltinio reputacijos. Todėl iš išvaizdos jie visi vienodi, o iš tikrųjų yra „geri“ OpenID ir „blogi“. Mano OpenID išdavėjo net nebėra „gyvo“. Daug daugiau naudos turiu iš Google paskyros ar Facebook Connect.

    Dėl „vieno produkto“. IntenseDebate nėra pakaitalas. Komentarai sinchronizuojami tarp WP ir IntenseDebate. Taigi tas „nė krust“ realybėje reiškia „išjungti įskiepį“ – ir gali krutėti, kiek nori – visi komentarai savo vietoje.

    O dėl blizgučių tai galima daugiau pasiskaityti IntenseDebate tinklalapiuose arba antroje mano įdėtoje nuorodoje.

  13. Parašytas 2009.5.4 (11:12) | Nuoroda

    Google, kaip ir Wolfram, naudoja matematinį kalbos modelį ;) tiesa, jie nerašo, kokį, bet turbūt bus kažkas daugiau už tf.idf. PageRank jau yra puslapių rikiavimo mechanizmas. Ir beje, kaip jie patys rašo, tai jie analizuoja puslapio struktūrą.
    Beje, Google Advanced search leidžia kai ką labiau specifikuoti. Gerai suformulavus užklausą ir išnaudojant advanced search tikslumas gana geras.

    paieška per kelias kalbas: http://www.google.com/language_tools?hl=en

    to Originalas: google jau ir taip skaičiuoja, ko tu ieškai. per sausainius. o jeigu prisiloginęs ieškosi, tai ir taip istoriją kaups. bet be privacy yra ir techniniai pavojai – labai lengvai gali apsimokyti rasti kažką vieno, ir nerasti kažko kito, ką gal irgi norėtum rasti.

  14. Ignas
    Parašytas 2009.5.13 (17:28) | Nuoroda

    googlei patarčiau senas klaidas taisyt o ne kurti naujas…
    Prieš metus pabandęs G naujas paieškos funkcijas iki šio google.com puslapyje džiaugiuosi riebiu klaidos pranešimu „Eksperimento, kurio prieigą bandote gauti, nebėra.“.

Viena citata

  1. Parašė Google tobulina paiešką (2009.5.13 13:06)

    [...] rašiau apie potencialią konkurenciją su Google, nė spėti negalėjau, kad pati Google suskubs su „savimi konkuruoti“. Net kai kurios idėjos [...]

Parašykite komentarą

Jūsų adresas niekada nebus skelbiamas ar perduotas kitiems. Privalomi laukeliai pažymėti *

*
*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>