Web數據開發在遠程教學中的使用

時間:2022-05-04 11:48:00

導語:Web數據開發在遠程教學中的使用一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

Web數據開發在遠程教學中的使用

【摘要】本文對webmining在遠程教育中應用進行了研究,并通過對遠程教育Web日志的分析,獲得關于學生學習的信息,根據其接受教育的對象存在著很多個性差異,基于Web數據挖掘提出了一個個性化遠程學習系統的框架結構和個性化服務的主要理念,使用WebUseMining技術對web日志信息進行挖掘,并利用這些信息建立起一個智能化、個性化基于web數據庫的遠程教育系統,從而更好地改進遠程教育的服務。

【關鍵詞】Web數據挖掘,遠程教育,個性化學習,個性化服務

1、引言

隨著互聯網應用技術的深入發展,人們對于各種網絡應用的需求正在急劇增加,同時各類網絡服務的競爭也日益加劇。如何為用戶提供更好的服務,是當今網絡應用服務商們所急需解決的問題。基于這種需求,個性化的Web服務研究正成為目前的一個研究熱點。

遠程教育以其便利、快捷、隨意的時間安排和廉價的收費正逐漸成為人們接受教育的一種新興的途徑,遠程教育作為一種學習手段,適用于高等教育、職業教育和成人教育。其教育對象存在著極大的差異性,主要體現在:個人學習目標的不同、學習能力的不同、認知風格不同。所以就需要針對性的提供差異性的教學內容和教學安排。而在現代遠程教育模式下,學生學習的過程就是在遠程教育網站頁面中跳轉活動的過程,他們的每個活動都是以教育網站上的一個頁面對象的點擊操作,這些點擊操作都能被完整地記錄在系統日志中,通過對日志的分析挖掘,一方面可以找出學生行為模式;另一方面,可以分析出遠程教育網站的結構組織是不是符合學生和教師學習和教學的規律。所以,將Web挖掘運用于遠程教育系統中,使之量身定做地為每個個體提供個性化的學習方案,從而進一步指導網站建設,是遠程教育獲得進一步發展的一個重要手段.

2.遠程教育與WebMining

2.1遠程教育

現代遠程教育是當代社會經濟和科技發展到一定程度以后所出現的一種新的遠程教育模式。它是在計算機和網絡、衛星系統的支持下,實現異地同步的圖像、聲音以及教學雙方的交流互動教學對傳統的教育模式帶來了一場全新的革命,其顯著特點是:

1)完全動態:各種學習資源是動態的,能夠采用多種交互方式進行上下傳,最新的教學信息也可以及時地反映到網上;

2)實時交互:能與教師、專家進行即時交流;

3)易于協作:學習者能夠按照某種劃分方式組成各種類型的小組,相互協作完成一定的課題項目,而且能夠在需要的時候得到教師、專家的幫助;

4)適應性學習方式:學習者可以根據個人的程度和喜好按排制定自己的學習計劃,教學內容能根據其選擇動態構建;

5)新穎全面:學校提供了豐富的而且不斷更新升級的學習資源,學生能夠很方便取得最好最新的學習資源,并以自己喜歡的格式展現出來。

這些特點反映了這樣一個趨勢,學習者不再是被動的接收教師的知識,他會主動去獲取相關信息其自主能力越來越強,由此對遠程教育系統提出了越來越高的要求,遠程教育系統應該也是一個能夠根據學習者行為信息不斷學習變化的系統,于是如何能夠從眾多的訪問者的大量訪問記錄中提取其行為信息來指導系統,從而提供更加完善服務就成為我們必須考慮的問題。

2.2WebMining

Internet的蓬勃發展使WebMining成為一個熱點。WebMining就是針對包括Web頁面內容、頁面之間的結構、用戶訪問信息等在內的各種Web數據,應用數據挖掘方法提取抽象的、潛在的、有用的知識。Web站點中主要有三類數據:內容數據、結構數據、使用數據。同時WebMining是指在WWW上挖掘有趣的、潛在的、有用的模式和信息的過程。也分成三類:WebContentMining、WebStructureMining、WebUsageMining。

WebContentMining是對Web頁面內容進行挖掘,從Web數據中發現信息。盡管人們可以直接從網上通過抓取建立索引,實現檢索服務來獲得資源,但是大量的“隱藏”信息只能通過內容挖掘來自動挖掘。

WebStructureMining是對Web頁面之間的結構進行挖掘。在整個Web空間,有用的知識不僅包含在頁面的內容中,而且也包含在頁面的結構中。Web結構挖掘主要針對的就是頁面的超鏈接結構,如果有較多的超鏈接指向它,那么該頁面就是重要的,發現的這種知識可用來改進搜索路徑等。

WebContentMining和WebStructureMining的對象都是網絡上的原始數據,而WebUsageMining不同于它們。它面對的是用戶和網絡交互過程中抽取出來的二手數據,這些數據主要是用戶在訪問Web時在Web日志(logs)里留下的信息,以及其它一些交互信息,包括:訪問日期、時間、用戶IP地址、服務器IP地址、方法、所請求URL資源、服務器響應狀態、用戶、發送字節等。WebUsageMining就是對ServerLogs、ErrorLogs、CookieLogs等日志信息,以及用戶的注冊數據等進行挖掘,以發現有用信息,并對學生訪問留下的日志文件進行分析提取,獲得關于學生學習的信息,作為對學生提供教學服務的依據。

學生在訪問網站時會留下許多信息。WebUsageMining技術能對這些信息進行挖掘,并利用這些信息建立起一個智能化的、個性化的遠程教育系統。這個系統通過對學習者學習行為的分析和研究,了解和掌握學生學習的情況、需求、能力、進度、興趣等,及時調整學習計劃,呈現符合個性的學習資源,使得每一個學生身邊仿佛有了能針對自身特點進行教學的“老師”而獲得個性化的教學服務

Web使用記錄挖掘的主要目標則是從Web網站的訪問日志記錄中獲取感興趣的模式,每個Web服務器都能有訪問日志文件,它記錄了訪問者的訪問和交互的信息。通過分析這些數據可以幫助網站管理者理解用戶的行為和Web結構,從而改進站點的設計。

3、WebUsageMining技術

個性化的遠程教育系統有許多可實現的方案和技術,基于WebMining系統的數據輸入一般有系統日志文件、用戶與系統交互數據(如學生注冊信息、考試成績等),但WebUsageMining技術主要用于對系統日志信息的挖掘。雖然WebUsageMining在具體實現時采用的結構和技術各不相同,但其主要過程都包括預處理、模式發現和模式分析。

3.1.預處理

預處理是Web挖掘中最關鍵的一個環節,其質量關系到使用挖掘過程和模式分析過程的質量。預處理包括數據清洗、用戶識別、會話識別、路徑補充和事件識別。

數據清洗其目的在于把日志文件中一些與數據分析、挖掘無關的項清除掉,如剔除CS-Uri-Stem項。還可剔除用戶請求訪問失敗的記錄,及用戶請求方法中不是GET的記錄。

用戶識別這是預處理的第二步,因為日志文件只是記錄了主機或服務器的IP地址,而要識別每一個用戶,則可采用Cookie技術和用一些啟發規則來幫助識別。

會話識別在時間區段較大的Web服務器日志中,用戶有可能多次訪問該站點。會話識別的目的就是將用戶的訪問記錄劃分成單個的會話。一般采用超時識別,如果用戶請求的頁面之間的時間超過一定間隔,則認為用戶開始了一個新的會話。

路徑補充確認Web日志中是否有重要的頁面訪問記錄被遺漏,這個問題的產生是由于Cache的存在所致。路徑補充的任務就是將這些遺漏的請求補充到用戶會話文件之中,也可以根據引用日志和網絡拓撲結構提供的信息把路徑補充完整。

事件識別事件識別是與要挖掘什么樣的知識有關,將用戶會話針對挖掘活動的特定需要進行事件定義。識別事件的方法有二:一個是ReferenceLength,一個是MaximalForwardReference。

3.2.模式發現(挖掘算法)

這個過程主要用一些挖掘算法來挖掘出規則、模式等。WebUsageMining中用到的Web日志分析及用戶行為模式的挖掘方法,主要用了統計分析、關聯規則、分類、聚類、序列模式等技術。

統計分析是分析用戶行為最常用的方法。通過求出現率、求平均、求中值等,統計最常訪問的網頁,每頁平均訪問的時間,瀏覽路徑的平均長度等,以獲得用戶訪問站點的基本信息。除此,還能提供有限的低層次的錯誤分析,比如檢測未授權入口點,找出最常見不變的URL等。在遠程教育系統中,可以分析該學生的訪問次數,總停留時間;該學生訪問的課程數;該學生對哪些課程停留時間較長等,還可統計網站某個時間段內訪問的次數,訪問次數最多的URL地址等。

關聯規則是通過分析用戶訪問網頁間的潛在聯系而歸納出的一種規則。關聯規則是如下的一種形式規則,如80%的用戶訪問Web頁面/company/product1時,也訪問了/company/product2,即只要訪問頁面A就有可能訪問B(或C……),在WebUsageMining中,人們經常使用的就是Apriori算法或其變形算法。在遠程教育系統中,關聯規則可發現用戶會話中經常被學生一起訪問的頁面集,這些頁面之間并沒有順序關系,我們可以根據這些學生群的相同興趣進行教學安排。同時,關聯規則還可作為啟發規則為遠程學生預取可能請求的頁面,以減少等待時間,建立起一個方便有效的學習環境。

聚類是把一組組個體按照相似性歸并成若干類別。在WebUsageMining領域包含著兩種聚類,即用戶聚類和頁聚類。“頁聚類”將內容相關的頁面歸在一個網頁組,對網上搜索引擎及提供上網幫助很有用;“用戶聚類”是將具有相似訪問特性的用戶歸在一起,在電子商務的市場分割和為用戶提供個性化服務中,能發揮巨大作用。

分類即將一組組個體分門別類的歸入預先設定好的幾個類中。在WebUsageMining領域,分類主要在于發展屬于特定類的用戶模型。它要求抽取出最能反映一個給定類的特性,通過誘導學習機制和分類的過程,并通過用戶歸入某一特定類,以對同一類別中的用戶提供相似的。分類的服務方法有:決策樹、貝葉斯算法、K近鄰分類器等。

遠程教學中,可通過學生填寫的個人信息及學生訪問行為模式的分析,用分類或聚類方法劃分相似學生群體或個體,以提供相似或個性化的教學。遠程教育中的協作性學習也非常重要。根據關聯、分類分析,準確劃分目標群體,為小組分類提供可能性和依據。小組學習也是為學生個性化服務的最好模式之一。

序列模式試圖找出頁面依照時間順序出現的內在模式。如訪問Web頁面/company/products的客戶中,有30%的人曾在過去的一星期里用關鍵字M在Yahoo上做過查詢。序列模式可以用來做用戶的瀏覽趨勢分析,即一組數據項之后出現另一組數據項,從而形成一組按時間排序的會話,以預測未來的訪問模式,這將有助于針對特別用戶群安排特定內容。通過序列模式研究,可以解決遠程教育中針對各種層次學生進行因材施教的問題。

3.3.模式分析

模式分析是WebUsageMining中最后一項重要步驟。其通過選擇和觀察把發現的規則、模式和統計值轉換為知識,再經過模式分析得到有價值的模式,即我們感興趣的規則、模式,采用可視化技術,以圖形界面的方式提供給使用者。

在個性化的遠程教育系統中,除了對日志文件的挖掘,還要對用戶與站點的交互數據庫、課件樹、站點文件等進行挖掘,對學生作業與考試的完成過程與結果及提問、答疑情況進行分析,進行全方位的個性化教學服務。

4.個性化服務

隨著因特網的發展和普及,越來越多的用戶利用搜索引擎來搜索網上信息。盡管搜索引擎的發展已較成熟,但人們在使用中卻發現要準確、快速地查找自己所需的信息是越來越困難。主要原因有兩個:a一次搜索的檢索結果(一系列URL地址)可能有成千上萬條,而在這過于龐大的信息群中,有用信息只是其中的一小部分,并且常常發生收到或下載的信息難以消化的情況,即所謂的“認知過載”。b.目前的搜索引擎都是服務器端軟件,用戶需要嚴格按照各種引擎所要求的格式輸入查詢詞,但種種限制使用戶不知道如何貼切地表達自己的信息需求,也不知道如何更準確地尋找所需信息,即所謂的“迷航”。面對網絡信息服務的現狀,人們在尋求一種將信息用戶感興趣的信息主動推薦給用戶的服務方式,這便是個性化信息服務。個性化信息服務是在對用戶及其需求了解的情況下,即通過用戶研究,從數量龐大、增長迅速、類型復雜的網絡信息中提取出用戶真正需要的那一小部分提交給用戶,是以“用戶為中心”的服務原則在網絡環境下的具體體現。

5個性化的遠程學習框架

5.1個性化的遠程學習系統

實現個性化的遠程學習系統的關鍵就是在學習的各個階段對個體進行差異化的分析和處理。首先需要對參加學習的個體情況進行分類以安排相應的教學內容和進程;其次在學習的過程中,知識表示的內容需要根據對學習者的個性要求具有不同的形式;最后就是要對每一個階段的學習進行相應的評估和反饋。

個性化的遠程學習系統設計的基本思路是對每一個主題知識的學習,分別提供初、中、高三個不同類別的學習方案。通過使用SLIQ算法進行用戶分類,將學習者按學習能力分成不同的類別,類別會隨個體的學習情況進行調整,分類的依據是用戶的個人數據和學習情況歷史。

5.2用戶分類

不同的個體其背景各不相同,如個人的學習能力、興趣與學習習慣、原來基礎、努力程度,都存在巨大的差異。因此需要區分用戶群體,以便系統作出個性化的學習安排。對于每一個用戶都有很多屬性,有些顯然并不對個人的學習能力構成影響,比如地址、電子郵件等。有些是和學習能力密切相關的,比如學歷、職業、年齡和學習情況。

當用戶第一次注冊時,需要填寫有關個人信息,系統通過SLIQ算法得到的用戶類別信息將用戶歸入相應類別。用戶所屬類別會根據用戶個人信息的修改和其學習情況的改變而更改,比如某用戶原先的學習能力為“低”,經過一段時間的遠程課程學習以后,其學習能力提高為“中”,此用戶的類別將被重新計算,這樣該用戶的學習等級就可能會被提升。

顯然由于用戶的個人資料會隨時間而發生更改,而且用戶的學習能力也會發生變化,所以挖掘過程需要定期進行以保持結果的正確性。

5.3個性化的學習知識庫

學習知識庫按相應的主題組織學習素材,把一個主題組織成圍繞問題和答案的一系列知識單元來進行,對應每個主題分解成若干知識單元。知識單元之間相互是有聯系的,聯系有可能是錯綜復雜的,簡單的聯系可以是前序知識或后繼知識等;同時知識單元的掌握程度是由一組問題答案集來作為評估學生學習的效果,評估效果可以由評估模塊來測定,比如對這一單元知識是全部掌握、部分掌握、少量掌握還是沒有掌握;另外特定的知識單元對應于不同水平的知識表示,以適合具有不同類別的學生學習。

5.4個性化的知識表示

知識表示是系統提供給不同類別的學生學習的課程知識界面,是預先準備好的適合不同程度的學生學習的不同詳細程度的學習材料。

知識表示的示意如圖1:

知識表示可依據學生水平、背景的不同體現不同的層次:如簡單扼要的表示;帶相應解釋、說明和示例的表示;配有詳盡解釋和大量參考鏈接的表示。通過提供不同層次的知識表示以適合學生的個體差異。當然,不同的表示對應的是同一個知識點的學習,所以對應的問題集和期望的答案應是一致的。

當學生進入某個主題知識的學習時,一個知識單元呈現內嵌的知識給用戶,記錄他的反應,更新其掌握水平,產生下一個知識表示,當要求的掌握水平被達到了,則可轉入流程到另一個單元;如果沒有達到,則根據具體的掌握程度,或返回其前序知識的學習或提供更詳盡程度知識表示頁面的學習。因此學生的學習是根據其自身的基礎和掌握知識的快邁程度的不同而不同的。

6.個性化遠程教育系統實例

整個解決方案共分三大部分:第一部分是系統的總體結構;第二部分是系統的基本組成及工作流程;第三部分是實施和個性化服務支持。

1.基于Web的數據庫遠程教育管理系統的總體結構

根據遠程教育的實際需求和發展趨勢,提出基于Web的數據庫遠程教育管理系統的總體結構如圖2所示.該數據庫管理系統包括以下部分:

(1)Web瀏覽器,它是客戶端用于輸入查詢條件和顯示查詢結果的交互界面;

(2)Web服務器,它提供Internet服務,管理HTML構成的信息并提供對數據庫的存取接口以及用于接收用戶輸入的信息及形成查詢結果;

(3)TCP/IP(TransmissionControlProtocol/InternetProtocol),用于實現Web瀏覽器

圖2基于Web的數據庫遠程教育管理系統總體結構框圖

與Web服務器之間的網絡信息交換;

(4)CGI(CommonGatewayInterface),它是Web服務器運行外部程序的一種規范;

(5)數據庫服務器,用于實現課件的存儲和數據庫管理功能以及身份驗證、計費等,并提供分布式數據庫的搜索路徑和搜索規則,以有利于網絡資源共享和利用.

2.數據庫遠程教育管理系統的基本組成及工作流程

數據庫遠程教育管理系統的基本組成按功能可以大致分成如下幾部分:

(1)課件基本信息表

(2)課件存儲對應表

(3)課件讀取權限表

(4)課件計費表

(5)課件自測結果表

以課件基本信息表為例,其中包含的條目有:

課件編號、課件名稱、課程介紹、主講教師、開課單位、課程分類、瀏覽方式、計費方法、可否下載等主要內容,其它各表也均包含與自功能有關的項目,在此不一一列出.

對于某一訪問者,其簡單工作流程如圖3所示.

圖3訪問數據庫管理系統工作流程

3、設計說明核心功能的特點:

●以知識點為核心組織網絡教學:以知識點為核心組織網絡教學突破了傳統教學以章節為主線的教學方式,有利于教師準確評估自己的教學效果,有利于學生對知識的準確把握,有利于網絡教材的編寫制作,同時為建立智能化的學習跟蹤、智能答疑提供了基礎。

●自適應的學習機制:根據學生瀏覽課件的情況,比如哪種知識點看到多少,頁面瀏覽時間長短,就可以判斷出學生背景知識水平,知識點的掌握情況,個人的學習能力強弱。根據這些判斷的結果動態調整教學資源鏈接,提供最適合個人的學習資源,達到最佳的教學效果。同時為學生提供方便的個人資源管理工具,使學生能夠根據自己的需要組織自己的學習資源,與教師提供的資源形成互補,激發學生自主學習的興趣,發揮網絡教學的優勢。

●智能答疑系統:系統可以方便快捷地解答學生的問題,同時結合知識點的結構分析學生問題的分布情況,指導教師采取進一步的輔導措施。教師可以根據自身教學的情況調整知識點的結構。

●對象的行為跟蹤:教師通過查看學生的在線學習記錄,能夠了解到學生的學習情況,比如學生的自測情況,學生實驗的完成情況,作業、測試成績等,使教師可以方便準確的評估自己的教學效果。教師還可以根據學習跟蹤掌握學生在線行為,引導學生正確合理利用網絡教學資源。教務人員也可以通過該系統了解教師的教學情況,評估教學質量。

●學生自我測評:學生可以隨時向系統發出申請,系統根據學生申請的難度要求和學生學習的范圍生成相應的試卷。學生完成試卷后系統自動批閱試卷并將批閱結果返回給學生,使學生能夠看到哪些知識點存在不足,以便在后續的學習過程中作相應的調整。

●遠程考試系統:教師可以選擇人工或智能組卷方式,生成試卷對學生進行在線考試或測驗。學生的考卷經系統自動評分后存入成績庫,教師可按需要獲得各類統計分析信息。

●先進的網絡教學管理系統:以教學服務管理為核心功能,同時提供教學分析和電子結算功能。模塊化設計便于不同部門構架適于自己的管理系統,通用標準數據交互為校際管理提供透明交互操作,教學行為分析與數據挖掘為網絡教學調整管理提供反饋數據。

7、總結:

從發展來看,利用計算機互連網開展遠程教育是必然趨勢,本文通過對Web日志的分析挖掘和對不同的用戶進行分類并提供相應的知識界面,采用數據挖掘技術,在大量的教學信息的基礎上,利用數據分析和挖掘工具,開發教育行為分析工具,指導學生學習和教師教學,提出了一個遠程個性化學習的框架模型。個性化學習的服務體現在學習知識庫的構建、個性化學習資料的呈現和學習進程的安排上。遠程教育的真正優勢在于提供符合用戶個體的個性化的學習安排,個性化的教育服務勢必會促進遠程教育的進一步發展,從而提供給用戶更加滿意的服務,可以相信,其應用前景極為廣闊.

【參考文獻】

1教育部文件.現代遠程教育工程教育資源開發標準.1999.10

2韓家煒,孟小峰,王靜,李盛恩.Web挖掘研究.計算機研究與發展.2001.4:405~414

3朱明.數據挖掘.合肥:中國科技大學出版社,2002.5

4汪啟軍,申瑞民.基于Web的遠程教育系統模型的研究.計算機工程.2000.12:157~159

5施建生.伍衛國.Web日志中挖掘用戶瀏覽模式的研究,西安交通大學學報.2001.35(6)621~624

6宋擒豹,沈鈞毅.Web日志的高效多能挖掘算法.計算機與發展.2001.3:328-333

7朱曉云.WEB數據與個性化服務中應用研究.情報雜志.2004.2

8李澤文基于WEB數據挖掘技術.現代計算機.2004.7

9童恒慶,梅清WEB日志挖掘數據預處理研究.現代計算機.2004.3

10謝維奇基于“電大在線”遠程教學平臺的WEB數據挖掘.教育信息化2004.10

11高巖胡靜濤WEB數據挖掘的原理、方法及用途2002.7

12陳恩紅等Web使用挖掘:從Web數據中發現用戶使用模式計算機科學.2001.5

13麗娜等.Web日志挖掘中的數據預處理的研究[J].計算機工程第26卷,第四期,2000年4月

14陳新中,李巖,謝永紅.Web挖掘研究.計算機工程與應用,2002(12)

15鄒濤、黃源、張福炎等基于WWW的文本信息挖掘情報學報1999(4)