Wykorzystanie technik web miningu do modelowania wiedzy webowych systemów edukacyjnych

Anna Rokicka - Broniatowska

Szkoła Główna Handlowa - Katedra Informatyki Gospodarczej,
Warszawa, Al. Niepodległości 162


1. WPROWADZENIE

Koncepcje "nauczania otwartego" dynamicznie rozwijane na świecie stawiają wysokie oczekiwania pod adresem komputerowych systemów nauczania. Poprawność tworzonych struktur wiedzy dla potrzeb edukacyjnych systemów webowych stanowi niezwykle trudny problem. Każdy człowiek przyswaja wiedzę w sposób indywidualny, uzależniony od swoich osobistych predyspozycji. Zatem klasyczna koncepcja webowej klasy, z punktu widzenia bazowej wersji opracowanego materiału dydaktycznego, oznacza jednak przeważającą konieczność studiowania przez uczącego się struktur wiedzy zaprojektowanych przez autora określonego kursu. Różnice mogą dotyczyć jedynie tempa uczenia, poziomu zaawansowania, doboru sekwencji prezentacyjnych, sposobu realizacji sesji itp. Z pewnością są to bardzo cenne propozycje dla nauczania zdalnego. Jednak warto zwrócić szczególną uwagę na odmienną zasadę definiowania struktur wirtualnej wiedzy. Chodzi o jeszcze większe upodmiotowienie uczącego się, pozwalające uwzględniać jego bezpośrednie preferencje informacyjne i sposób myślenia.

Struktury wiedzy zgromadzonej w systemach Inteligentnego Środowiska Uczenia winny być kształtowane w procesie automatycznego dostosowywania się do profilu eksplorującego je użytkownika, a jednocześnie powinny one być dynamicznie aktualizowane w stosunku do zawartości zgromadzonej na stronach WWW wiedzy. Stąd istotnym problemem jest połączenie doświadczeń multimedialnych inteligentnych systemów tutorskich (MITS) z nowymi narzędziami autorskimi hipermedialnych systemów edukacyjnych, pozwalającymi modelować zarówno inicjacyjnie zasoby wiedzy systemów, jak również dokonywać ich permanentnego, dynamicznego reengineeringu.

Możliwości takie otwierają się w ramach wykorzystania sieci samoorganizujących do modelowania zasobów edukacyjnych struktur webowych [ROKI02], jak również metod odkrywania wiedzy zgromadzonej w sieci WEB - zwanych web miningiem, oferujących szereg metod automatycznego jej ekstraktowania.

Prezentowany artykuł stanowi formę analizy możliwości wykorzystania tych metod dla pozyskiwania webowej wiedzy, jej wzbogacania i użytkowego profilowania w czasie rzeczywistym, w ramach edukacyjnych hipermedialnych zasobów wiedzy.


2. ETAPY ROZWOJU WEBOWYCH SYSTEMÓW EDUKACYJNYCH

Coraz częściej można spotkać się z entuzjastycznymi opiniami na temat przyszłości Internetu, związanej z dodaniem inteligentnych funkcji np. tłumaczeniem stron w czasie rzeczywistym, czy też semantycznym filtrowaniem informacji. Pomysłom tym towarzyszy wizja stworzenia globalnego superorganizmu, wyposażonego w inteligencję. Twierdzi się, że Internet jest metaforą ludzkiego umysłu i należy zmierzać w kierunku odwzorowywania struktur mózgu ludzkiego w formie sztucznych sieci samoorganizujących się. Popatrzymy zatem na rozwój koncepcji organizacji stron webowych w aspekcie ich zmieniającej się roli informacyjnej.

W pierwszym etapie wykorzystania WEB-u w procesach nauczania zmierzano do tworzenia struktur informacji, odzwierciedlających zasady funkcjonowania pamięci skojarzeniowej. W zasadzie oznaczało to pasywne formy prezentacji określonych dokumentów webowych i sprowadzenie oprogramowania, udostępniającego te zasoby, wyłącznie do roli rzutnika interaktywnie sterownego wyświetlaniem slajdów.

W drugim etapie wyraźnie zmieniły się funkcje umieszczanych stron webowych. Zaczęto zmierzać w kierunku stosowania mechanizmów samodzielnego odkrywania i ulepszania struktur informacyjnych w oparciu o uczenie się skojarzeniowe. Dotyczyło to zarówno rozwiązań w sieciach lokalnych, jak również w sieci rozległej. Etap ten bywa określany nazwą Thinking Web. Obejmuje on aktywne wyszukiwanie, rozwiązywanie problemów, gromadzenie skojarzonych dokumentów i w końcu myślenie. Pierwszy taki mechanizm zastosowano w stylu wyszukiwania WAIS (http://lycos.cs.cmu.edu/). Użytkownicy wprowadzają kombinacje słów kluczowych, oddających intencje zapytania. Potem następuje etap skanowania dokumentów sieci, zawierających wyspecyfikowane słowa, czy kryteria.

Trzeci istotny etap - to pojawienie się technologii oprogramowania agenckiego. W zasadzie oprogramowanie to występuje w grupie programów penetracyjnych sieci, obok robota i wędrowca.

Robot jest programem, który pobiera dokumenty webowe w celu ich dalszej obróbki. Wędrowiec zasadniczo ma za zadanie wyszukiwanie czegoś pod zadanym adresem i bada listę przyłączonych dokumentów. Jednak z punktu widzenia realizowania jakiejś strategii dydaktycznej w obrębie stron WWW, szczególne zalety przedstawia agent.

Agent to program służący do zbierania określonych informacji w dużych, rozproszonych zasobach danych. Agenty działające w Internecie są najczęściej niezależnymi programami "wysyłanymi" w sieć, w celu przeszukania zawartości stron webowych, pod kątem konkretnych informacji. Coraz częściej agenty posiadają pewien rodzaj "inteligencji", potrafiąc podpowiadać użytkownikowi najlepsze dla niego rozwiązania. Agent zatem działa dosyć podobnie do robota. Jednak zasadnicza różnica polega na tym, iż agent wykonuje zazwyczaj pojedyncze, konkretne "misje", podejmuje decyzje, natomiast robot znajduje się nieustannie w ruchu. I tu właśnie przejawia się atrakcyjność zastosowania agentów w technologiach zdalnego nauczania i nauczania realizowanego w ramach wirtualnych klas. Agent może zgodnie z bieżącym Modelem Studenta MS proponować mu określoną strukturę stron webowych, a także doradzać niczym tutor. Warto także podkreślić, iż ta rzekoma wirtualność procesu uczenia rozgrywa się jednak na rzeczywistych danych.

Obecnie przedstawimy równie elastyczne podejście do procesu modelowanie wiedzy webowego systemu edukacyjnego, w oparciu o techniki data miningu.


3. DYNAMICZNA METODOLOGIA ROZWOJU ADAPTATYWNYCH SYSTEMÓW WEBOWYCH

Dynamiczne modelowanie zasobów wiedzy w ramach hipermedialnych systemów edukacyjnych, przedstawiają prace wykorzystujące algorytmy genetyczne, jako techniki Web Data Miningu. W rozwiązaniu tym algorytm genetyczny wykorzystywany jest dla odkrywania wiedzy, zgodnie z technikami Web Data Miningu, do szacowania zasobów studenckiej wiedzy, pozyskiwanej z zasobów webowych. Metody te wykorzystano do nauczania w ramach kursu studentów medycyny [ROME02]. Zastosowane tam reguły asocjacyjne, oparte o algorytm genetyczny, pozwoliły nauczycielowi dokonywać udoskonaleń struktury kursu hipermedialnego. Metodologia dynamicznej konstrukcji webowego kursu hipermedialnego ma charakter ewolucyjny i rekurencyjny, a także uzależniona jest od liczby studentów, którzy korzystali z systemu. Ideę tego podejścia przedstawia rysunek 1.

Rys 1. Dynamiczna metodologia rozwoju adaptatywnych hipermedialnych systemów webowych, Źródło: [ROME02,s.138].

Metodologia ta oparta jest na czterech krokach:

  1. Konstrukcja kursu
    Modelowania zawartości określonego kursu dokonuje autor materiału lub wykładowca. Musi w tym celu określić model dziedziny wiedzy (tematu), model pedagogicznej strategii i zdefiniować model interfejsu. Pozostałe elementy - tj. model tutora i model studenta są dane lub oczekiwane przez system. Zatem do umieszczenia kursu na serwerze wymagana jest obecność nauczyciela i dostępność narzędzi autorskich.
  2. Uruchomienie kursu
    Student uruchamiając sesje kursu używa webowego nawigatora. Za jego pośrednictwem przekazywane są wszystkie informacje o aktywności studenta na serwer i zapisywane w bazie danych, zawierającej historie uczenia wszystkich studentów.
  3. Wykorzystanie metod data miningu
    Nauczyciel stosuje w aplikacji dydaktycznej algorytm data miningu [WITT99], korzystając w tym celu ze specjalnego interfejsu graficznego. Zadaniem tego algorytmu jest wygenerowanie odpowiednich asocjacji tematycznych, przeznaczonych dla studentów.
  4. Udoskonalanie kursu
    W oparciu o odkryte wzajemne powiązania między pojęciami, dokonywana jest modyfikacja kursu, przeprowadzana ponownie za pośrednictwem narzędzi autorskich (wykorzystanie historii linków).
Te łączne kroki mogą być wielokrotnie powtarzane, jak tylko życzy sobie tego nauczyciel, pragnąc doskonalić materiał. W oparciu o powyższy model uczenia zrealizowano kursy w zakresie reumatologii na Uniwersytecie w Cordobie. Były one testowane na grupie 30 słuchaczy, z czego 20 było już lekarzami, a 10 jeszcze nie.


4. ALGORYTM GENETYCZNY DLA WEB MININGU

Głównymi zadaniami metod data miningu jest:

  • klasyfikacja,
  • grupowanie,
  • odkrywanie reguł asocjacyjnych.
W tym przypadku użyto algorytmu genetycznego do otrzymania reguł asocjacyjnych, z pozyskiwaniem danych szacunkowych od strony użytkowników. W trakcie procesu uczenia reguły asocjacyjne zmieniały swoje wartości.

Algorytmy genetyczne opierają się na paradygmacie procesu ewolucji Darwina, a ich zastosowania do odkrywania wiedzy dają często lepsze efekty, niż tradycyjne metody data miningu.

Genetyczny proces odkrywania reguł kandydujących i zamieniania ich w pełen zestaw reguł, składa się z 5 następujących kroków:

  1. Inicjalizacja
    Etap ten obejmuje generowanie grup początkowych, przez użytkowników (od 50 do 500 reguł). Połowa z nich jest generowana losowo, a połowa startuje od wartości najczęściej występujących w bazie danych. W tym rozwiązaniu wykorzystano podejście Michigan, które przypisuje każdemu indywidualnemu chromosomowi pojedynczą regułę. Reguły są zapisywane w postaci liniowych łańcuchów warunków, występujących w formie par : zmienna - wartość.
  2. Szacowanie
    Krok ten sprowadza się do oszacowania wartości funkcji przystosowania dla wszystkich reguł, po uprzednim dokonaniu procesu kodowania - czyli odwzorowania ich w dogodną postać obliczeniową.
  3. Selekcja
    Etap ten sprowadza się do wyboru populacji reguł - rodziców, które w dalszych krokach zostaną poddane mutacji lub krzyżowaniu. W wyniku tego etapu każda reguła otrzymuje swoje rankingowe przypisanie funkcji przystosowania.
  4. Reprodukcja
    Proces reprodukcji obejmuje tworzenie nowych reguł, na podstawie mutacji i krzyżowania reguł bieżąco istniejących. Prawdopodobieństwa operatorów mutacji i krzyżowania ustalane są w oparciu o zachowanie użytkownika i następnie są rekomendowane na poziomie 0,5 - 0,95 dla operatora krzyżowania oraz 0,005 - 0,02 - dla mutacji.

    Mutacja definiowana jest, jako przekształcenie populacji reguł, w taki sposób, że startując od reguł starych dokonuje się zmian w wartościach zmiennych, zgodnie z założonym probabilistycznym przekształceniem. Mutacja ta ma charakter losowy.

    Pod pojęciem operacji krzyżowania "(...) na ogół rozumie się przekształcenie populacji rodzicielskich chromosomów, w populację potomną w taki sposób, by zapewnić wymianę informacji pomiędzy parami losowo wybranych chromosomów z populacji rodzicielskiej" [ZIEL00,s.23]. Zatem krzyżowanie reguł oznacza tworzenie nowych reguł - potomnych, w oparciu o reguły rodzicielskie. Operacja ta przebiega dwuetapowo. W pierwszym etapie algorytm genetyczny dokonuje wyboru punktu krzyżowania (jednego, dwóch lub wielu). W etapie następnym dokonywane jest krzyżowanie właściwe - czyli wymiana elementów reguł.

  5. Finalizowanie
    Proces ten obejmuje wielokrotne powtarzanie omawianych etapów i generowanie nowych reguł w procesie genetycznym. Na ogół użytkownicy ustalają liczbę tych kroków w granicach 12 - 500 i wskazują moment kończący proces.
Przedstawione koncepcje wykorzystano w hipermedialnym, webowym kursie, co wymagało każdorazowo oceny wygenerowanych reguł przez nauczyciela oraz podjęcia decyzji, co do włączenia ich do materiału kursu. Generalnie uznano, iż narzędzie to efektywnie wspomagało tworzenie hipermedialnych materiałów kursu.


5. PODSUMOWANIE

Przedstawiona w opracowaniu koncepcja zastosowania różnych narzędzi sztucznej inteligencji, w procesach modelowania wiedzy, dla potrzeb hipermedialnych adaptatywnych systemów edukacyjnych, stanowi bardzo obiecującą perspektywę rozwoju różnych form nauczania zdalnego. Stwarza ona możliwości pełniejszej adaptacji i doboru wiedzy, zgodnie z sukcesywnie tworzonym i samoulepszającym się asocjacyjnym modelem uczenia, bądź efektami pozyskanych skojarzeń wiedzy za pośrednictwem web miningu.

Omawiana problematyka wskazuje, że rozwój wirtualnych form uczenia wymaga nie tylko nowoczesnych rozwiązań technologicznych. Musi mu towarzyszyć ogromna praca badawcza w dziedzinie wypracowywania nowych metodologii pozyskiwania i prezentacji wiedzy. Wydaje się, że dopiero jesteśmy na progu tworzenia metod uczenia nowej generacji.


LITERATURA

  • [DANI98] - DANIŁOWICZ CZ., Reprezentacja preferencji użytkownika końcowego w modelach informacyjnych agentów, Materiały Konferencyjne "Multimedia i sieciowe systemy informacyjne", s.167-177, Oficyna Wydawnicza Politechniki Wrocławskiej, Wrocław, 1998.
  • [HEYL91] - HEYLIGHEN F., Structuring Knowledge in a Network of Concepts, w: Heylighen F., (ed) Workbook of the 1st Principia Cybernetica Workshop, Principia. 
  • [PERK99] - PERKOWITZ M., ETZIONI O., Adaptive Web Sites: Conceptual Cluste Mining, Proceedings of the 2nd Workshop on Adaptive Systems and User Modeling on the WWW, 1999.
  • [ROKI00] - ROKICKA-BRONIATOWSKA A. Wybrane metody modelowania struktur informacyjnych w webowych systemach edukacyjnych, Materiały Konferencyjne "Multimedia i sieciowe systemy informacyjne", s. 129-138, Oficyna Wydawnicza Politechniki Wrocławskiej, Wrocław, 2000.
  • [ROKI02] - ROKICKA-BRONIATOWSKA A. Wykorzystanie sieci samoorganizujących się do modelowania wiedzy webowych systemów edukacyjnych, II Warsztaty Politechniki Warszawskiej "Uniwersytet Wirtualny: model, narzędzia i praktyka", Magazyn Edukacji Wirtualnej MEWa, Nr 3/2002
  • [ROME02] - ROMERO C., VENTURA S., DE CASTRO C. Using Genetic Algorithms for Data Mining in Web-based Educational Hypermedia Systems, The 2nd International Conference Adaptive Hypermedia and Adaptive Web Based Systems, AH'2002, Workshop: Adaptive Systems for Web-based Education, Málaga, May 2002.
  • [WITT99] - WITTEN I., FRANK E., Data Mining. Practical Machina Learning Tools an Techniques with Java implementations. Morgan Kaufmann Publishers, 1999.
  • [ZIEL00] - ZIELIŃSKI J.S., (red). Inteligentne systemy w zarządzaniu. Teoria i praktyka, PWN, Warszawa, 2000.


O AUTORCE

Pani dr Anna Rokicka - Broniatowska jest adiunktem w Katedrze Informatyki Gospodarczej Szkoły Głównej Handlowej w Warszawie. Od wielu lat swoją działalność badawczą koncentruje na problematyce badawczej związanej z rozwojem inteligentnych webowych systemów edukacyjnych. Kieruje zespołem naukowym zajmującym się różnymi aspektami multimedialnych systemów wiedzy. Większość jej prac dotyczy wykorzystania narzędzi sztucznej inteligencji w procesie dynamicznego modelowania struktur wiedzy webowych systemów zdalnego nauczania.

E-mail: bronak@sgh.waw.pl.