• rozwiń
    • WIG20 2344.03 +0.97%
    • WIG30 2681.21 +0.94%
    • WIG 60902.04 +1.18%
    • sWIG80 11928.15 +0.52%
    • mWIG40 4035.38 +0.48%

Ostatnia aktualizacja: Wczoraj 17:15

Dostosuj

Dojdą do końca polskiego internetu

Dojdą do końca polskiego internetu
Foto: tvn24/ Maciej Wężyk Foto: Cel wyszukiwarki to stworzenie bazy wielkości 500 mln dokumentów.

Do połowy roku twórcy polskiej semantycznej wyszukiwarki internetowej Nekst chcą zebrać i uporządkować 500 mln polskojęzycznych dokumentów krążących w sieci. Pozwoliłoby im to przebić Google i Yahoo. Dzięki temu internauta szybciej będzie mógł znaleźć szukaną informację.

Szacuje się, że w polskim internecie krąży około miliarda polskojęzycznych dokumentów. Dane te porządkują twórcy polskiej semantycznej wyszukiwarki internetowej Nekst.

Nawet Google czy Yahoo, przy całej swojej potędze, prawdopodobnie nie mają zebranego całego polskiego internetu.

prof. Jacek Koronacki, dyrektor IPI PAN

Do czerwca tego roku zeskanowanych zostanie w sumie 500 mln dokumentów - w tym artykuły i pliki pdf. W zasobach przeglądarki znajdzie się zatem połowa polskiego internetu. Wtedy też Nekst ma być udostępniony użytkownikom.

Nad wyszukiwarką pracuje zespół z Instytutu Podstaw Informatyki PAN w Warszawie i Politechniki Wrocławskiej.

- Nawet Google czy Yahoo, przy całej swojej potędze, prawdopodobnie nie mają zebranego całego polskiego internetu - przyznaje kierownik projektu, prof. Jacek Koronacki, dyrektor IPI PAN. Szacuje, że wyszukiwarki te gromadzą tylko co piąty dokument po polsku.

Ziarnko do ziarnka

Na razie twórcom polskiej wyszukiwarki udało się zebrać 160 mln polskojęzycznych dokumentów, a więc ok. 16 proc. polskiego internetu. Wciąż problemem jest porządkowanie i opisywanie dokumentów - to pochłania najwięcej czasu i pieniędzy.

Polska wyszukiwarka będzie działała według całkiem innych algorytmów niż największe wyszukiwarki międzynarodowe. - Te wyszukiwarki nie mają mechanizmów, które naśladowałyby rozumienie języka - opowiada prof. Koronacki i podkreśla, że Nekst będzie pierwszą w Europie tak dużą wyszukiwarką semantyczną dla narodowego języka.

O co chodzi?

 

Jeśli internauta zapyta o opony, Nekst ujednoznaczni zapytanie i dopyta, czy chodzi o opony samochodowe, czy może też chodzić opony mózgowe.

PAP

Nekst będzie analizować tekst pod kątem najczęściej pojawiających się słów i wyrażeń. Dzięki temu wyszukiwarka może "wywnioskować", o czym jest dany tekst i jak najskuteczniej go zaklasyfikować. - Musimy umieć budować mechanizmy rozumienia języka. Musimy zwłaszcza umieć uwzględniać fleksję i swobodny szyk zdania - wyjaśnia prof. Koronacki.

Jeśli internauta zapyta o opony, Nekst ujednoznaczni zapytanie i dopyta, czy chodzi o opony samochodowe, czy może też chodzić opony mózgowe. Pokaże szukającemu linki także do stron, w których nie ma frazy „opony samochodowe”, ale występuje rdzeń słowa "opony" i pojawiają się inne słowa, które wskażą, że strona rzeczywiście poświęcona jest motoryzacji.

W ramach projektu trwają też prace nad analizą obrazów - wyszukiwarka w dokumentach będzie mogła po pewnego stopnia rozpoznawać, co jest na ilustracjach.

Podziel się:

Bądź na bieżąco:
  • Komentarze (0)

Dodaj Komentarz

Zaloguj się , aby dodać komentarz
Forum jest aktualizowane w czasie rzeczywistym
+0 nowe komentarze

Zasady forum

Publikowane komentarze są prywatnymi opiniami użytkowników portalu. TVN24BiŚ nie ponosi odpowiedzialności za treść opinii.

Ustawienia

Zamknij ustawienia
Ustawienia zostały zapisane