Chapter18栏位操作节点_第1页
Chapter18栏位操作节点_第2页
Chapter18栏位操作节点_第3页
Chapter18栏位操作节点_第4页
Chapter18栏位操作节点_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Chapter18欄位操作節點18.1總論18.2類型節點18.3過濾節點18.4導出節點18.5填充節點18.6設置標記節點18.7歷史節點Outline在資料準備階段,使用者通常需要選擇、清理和建構資料。欄位操作節點能夠幫助使用者爲建模和其他下游流程的操作準備資料。欄位操作選項板包含以下節點:類型(Type)

過濾(Filter)

導出(Derive)

填充(Filler)

設置成標記(SettoFlag)

歷史(History)

8.1總論8.2類型節點目的:指定欄位的一系列重要屬性。類型資料使用類型:(1)連續型(Range):用於描述數值。(2)離散型(Discrete):

用於當一個具體值的精確數量未知時描述字串。(3)標記型(Flag):用於只取兩個具體值的資料。(4)集(Set):

用於描述帶有多個具體值的資料,每個值作爲集中的一個元素。note:將一種類型設置爲集並不會自動把值轉換爲字串。(5)無類型(Typeless):

用於不符合上述任一種類型的資料或者含有太多元素的集類型資料。在類型節點中設置資料類型

(一)使用自動定類:使用ReadValues按鈕來立刻讀取資料來源中的值。

(二)手工設定欄位類型:何謂實例化實例化就是讀取或詳細說明資訊的過程。未實例化:未知類型的資料通常被認爲是未實例化。部分實例化:當使用者具有關於一個欄位存儲如字串或數值的資訊時,資料被稱作部分實例化。完全實例化:當某種類型的所有細節包括值都已知,在欄中就會顯示完全實例化類型--集、標記、連續。何時在類型節點實例化

使用者有兩種方法知道資料欄位的存儲類型和值。(1)可以發生在使用者首次把資料引入Clementine時的來源節點上。(2)在把一個類型節點插入流中時。在以下情況時,類型節點上的實例化是有用的:(1)資料集較大,而且流在類型節點前就過濾了子集(2)資料在流程中被過濾(3)資料在流程中被合併或附加(4)在處理過程中導出新的資料欄位

資料存儲與資料類型

欄位的類型與欄位的存儲不同,後者指出了資料是否儲存爲字串、整數、實數、時間、日期或者時間標記。存儲能夠在固定文件和可變文件來源節點處改變或使用轉換函數來改變。類型節點已經被實例化:(1)使用者便可以選擇IgnoreUniqueFields,將自動忽略只帶有一個值的欄位。(2)選擇IgnoreLargeSets,自動忽略含有大量記錄的資料集。讀取資料值可以選擇自動定類選項或在一個單獨的對話方塊中指定類別和值。<Read>當執行節點時讀取資料<Read+>讀取資料和附加到目前資料(如果已有資料存在)<Pass>無數據被讀取<Current>保持目前資料值Specify...打開一個單獨的對話方塊來指定值和類型選項使用值對話方塊

Type:顯示目前選中類型。使用者可以通過改變類型來反映使用者想在Clementine使用資料的方式。Storage:

顯示已知存儲類型。存儲類型不受使用者選擇的使用類型(連續、集、標記)的影響。要想改變存儲類型,使用者可以使用固定文件和可變文件來源節點的資料標記,或者過濾節點的轉換功能。

Value:

選擇一種方法來決定已選欄位的值。讀取資料的選擇:(1)Readfromdata(<Read>):選擇在節點執行時讀取資料。

(2)Pass(<Pass>):選擇不讀取目前欄位的資料。

(3)Specifyvalues:該選項同值檢查一起使用,允許使用者基於對目前欄位的認識來指定值。這種選項能夠對每一類欄位進行單獨控制。

note:不能給無類型(Typeless)或<Default>的欄位類指定值。從資料擴展值(Extendvaluesfromdata):

選擇使用者在此處鍵入的值來附加目前資料。檢查值(Checkvalues):

選擇一種方法--強迫值符合指定範圍、標記或者集值。值檢查同指定值選項一起使用,允許使用者設置資料中的值與期望值一致。定義空白(Defineblanks):

使用者能指定系統遺漏值(在資料中顯示爲$null$)

和空白處(沒有可視字元的值)爲空白。使用者也可以用遺漏值表格來定義具體的值(如99或0)爲空白。描述(Description):

使用該文本框來鍵入任何有關資料欄位的評論。指定連續值連續型用於數值型欄位。連續型類型節點有以下三種存儲類型:(1)實數(2)整數

(3)日期/時間下限(Lower):

爲連續型欄位值指定下限上限(Upper):

爲連續型欄位值指定上限指定集的值集欄位類型要求資料值作爲集的元素單個使用。集的存儲類型可以是字串、整數、實數或者日期/時間值(value):允許基於對目前欄位的認識來指定值。使用者可以使用該表格來鍵入欄位的期望值,並用檢查值下拉功能表的方法,來檢查資料集是否與這些值一致。指定標記值標記欄位用於顯示含有兩個不同值的資料。標記的存儲類型可以是字串、整數、實數,或者日期/時間。True:

條件符合時指定欄位的標記值。False:

條件不符合時指定欄位的標記值。

檢查類型值打開每一欄位的檢查選項檢查該欄位的所有值,以判斷它們是否符合目前類型設置或者是否符合使用者在Specify值對話方塊中指定的值。優:清理資料集和減少某個單一操作內資料集大小時是很有用的。Check欄的設置決定了當一個超出類型限制範圍的值被發現時會發生什麽。None:值將不經過檢查就通過。Nullify:把超出範圍的值變爲系統遺漏值($null$)。Coerce:檢查類別被完全實例化的欄位是否含有落在指定範圍外的值。Note:未被指定的值將會根據下述規則被轉化爲一個該種類型的合法值:(1)對於flag,除了“真”和“假”外的其他值均被轉換爲“假”(2)對於set,任何未知值都被轉換爲集值的第一個元素(3)超過區間上限的數位用上限替代(4)低於區間下限的數位用下限替代(5)區間內的遺漏值用該區間的中位數代替Discard:當非法值被發現時,整個記錄被刪除。Warn:當讀取完所有資料時,在流程屬性對話方塊中計數和報告非法專案的數量。Abort:遇到第一個非法值就中止執行流程。錯誤會在流程屬性對話方塊中報告。In:

欄位被設爲input到機器學習中Out:

欄位被設爲機器學習的output或目標Both:

欄位將被GRI和Apriori節點用作input和output。None:

欄位被機器學習所忽略。設定欄位方向複製類屬性Step1:在要複製屬性的欄位上單擊滑鼠右鍵,選擇“Copy”。Step2:在要改變屬性的欄位上單擊滑鼠右鍵,選擇“PasteSpecial”。Step3:選擇欲貼上的屬性欄

8.3過濾節點三個功能:(1)從通過的記錄中過濾或剔除欄位(2)重命名欄位(3)把欄位從一個來源節點映射到另一個設定過濾節點選項Field:顯示目前連接的資料來源欄位Filter:顯示所有輸入欄位的過濾狀態Field:當欄位離開過濾節點時顯示這些欄位重複的名字會以紅色顯示。Viewcurrentfields:

選擇觀察與過濾節點連接的資料集的欄位。

Viewunusedfieldsettings:

選擇曾經觀察但現已不再連接到過濾節點的資料集的欄位。

對話方塊頂端的過濾功能表可以幫助使用者同時進行多個欄位的操作(1)Removeallfield(2)Includeallfields

(3)Toggleallfields

(4)RemoveduplicatesMaximumlength:指定字元的個數來限制欄位名的長度。

Numberofdigits:

如果欄位名被縮短時不再唯一,通過把數位增加到

名字中,它們將被進一步縮短和區分。(5)Truncatefieldnames:(6)Useinputfieldnames

(7)filterdefault8.4導出節點Clementine最強大的特點就是其修改資料值和從已存資料中導出新欄位的能力。六種導出節點及其産生的新欄位如下所示:Formula:其新欄位是任一個CLEM運算式的結果。Flag:其新欄位是一個標記,顯示了指定的條件。Set:其新欄位是一個集,即它的元素是一組指定值。State:其新欄位是兩種狀態的一種。在兩種狀態之間的轉換是根據指定的條件來決定的。Count:其新欄位是基於條件正確的次數。Conditional:其新欄位是兩種運算式之一的值,取決於條件的值。

8.4.1設置導出節點的基本選項Mode:選擇Single還是Multiple,取決於使用者是否想導出多重欄位。當選中Multiple時,對話方塊會變爲包含有多重源欄位的選項。

DeriveDeriveas:選擇導出節點的類型,如下拉功能表中的Formula或Set。對於每一種類型,都可以基於使用者在類型指定對話方塊中指定的條件來創建一個新的欄位。根據每一個導出節點類型的屬性,從下拉功能表選中一個選項將會在主對話方塊增加一系列新的控制。

DeriveFieldtype:爲最新得到的來源節點選擇一個類型,如連續型、集或標記型。該選項可用於所有形式的導出節點。

8.4.2導出多重欄位在導出節點中設置模式爲Multiple,使用者就可以基於同一節點中的同一條件導出多重欄位。這一特點在使用者想要對資料集中一些欄位進行相同的變化時能夠節省時間。

選擇多重欄位Sortby:Natural:當欄位通過流程進入

目前節點時,觀察欄位的順序。Name:查看時,按照字母順序對欄位分類Type:查看按類型分類的欄位,此選項在根據類型選擇欄位時是很有用的。

Filenameextension:鍵入使用者想要增加到新欄位的副檔名。例如,對於一個含有變數K,Na對數化的新欄位,使用者可以增加副檔名_derive2到原欄位名,即K_derive2。用單選按鈕來選擇是否增加擴展作爲欄位名的字首(prefix放在開頭)或尾碼(suffix放在末尾)。預設名爲DeriveN,其中N是目前會話中使用者所建導出節點的數目。

8.4.3設置導出規則選項注意這個運算式不能是有條件的。如果要根據一個條件運算式導出值,則使用導出節點的標記或條件類型。8.4.4設置導出標記選項Truevalue:對符合下面指定條件的記錄,指定一個值,使其包含在標記欄位中。預設值爲T。Falsevalue:對不滿足下列條件的記錄指定一個值包含在標記欄位中。預設值爲F。8.4.5設置導出設置節點選項設置導出設置節點選項8.4.6設置導出狀態選項8.4.7設置導出計數選項

導出計數節點用於在資料集中將一系列條件應用到數值型欄位的值上。當每個條件滿足時,導出計數欄位的值就增加一個固定的增量。導出節點的這個類型可以有效用於時間序列資料。

設置導出計數選項8.4.8設置導出條件選項If。指定一個CLEM條件運算式,在執行時爲每個欄位進行評估。如果條件爲真(或者在數值的條件下非假),則新欄位賦的值在下面的Then運算式中。單擊calculator按鈕,可以打開運算式構造器。Then。在前面定義的If語句爲真(或者非假)時,給新欄位賦一個值或者CLEM運算式。單擊calculator按鈕,可以打開運算式構造器。Else。在前面定義的If語句爲假時,給新欄位賦一個值或CLEM運算式。單擊calculator按鈕,可以打開運算式構造器。

設置導出條件選項8.5填充節點填充節點用來替換欄位值以及改變存儲。使用者可以用一個指定的CLEM條件,比如@BLANK(@FIELD),來替換欄位值。使用者也可以用一個指定的值替換所有的空缺和無效值。填充節點通常與類型節點結合起來替換遺漏值。注意:當用使用者定義的值來替換已選中的多個欄位時,欄位類型必須相似(都爲數值型或者字元型),這點很重要。

填充節點當用使用者定義的值來替換以選重的多個欄位時,欄位類型必須相似(都為數值型或者字元型)填充節點Replace:選擇使用以下方法替換選中欄位的值Basedoncondition。此選項啟動Condition欄位和運算式構造器,創建一個運算式,以此作爲用指定值作替換的條件。Always。替換所有被選中的欄位的值。比如,用此選項通過CLEM運算式(to_string(income))把income的存儲值轉換成字串。Blankvalues。替換被選中的欄位中所有使用者指定的空值。標準條件@BLANK(@FIELD)用來選擇空缺;注意:使用者可以用來源節點的Types項目或者用類型節點來定義空缺。Nullvalues。替換被選中欄位中的所有系統無效值。標準條件@NULL(@FIELD)用來選擇無效值。Blankandnullvalues。替換被選中的欄位中的空值和無效值。當使用者不能確信無效值是否已被定義爲遺漏值時,這個選項能發揮作用。

BasedonconditionBasedonconditionAlwaysBlankvaluesBlankvaluesNullvalueBlankandnullvalues注意:當所選的欄位爲字串型時,必須用字串型資料作替換。用缺省值0或者其他的數值型資料替換字串型資料將出現錯誤。

8.5.1用填充節點轉換存儲值可以使用的轉換函數如下:to_integer(ITEM)to_real(ITEM)to_string(ITEM)to_time(ITEM)to_timestamp(ITEM)檢視現有的轉換函數,用運算式構造器自動創建一個CLEM運算式。從Functions下拉功能表中,選擇Conversion可以查看所有轉換函數列表。

8.6設置標記節點

使用者必須先有一個從一個設置標記節點開始,在其上游的並且指定了一個或多個欄位類型爲資料集類型的類型節點。

8.6.1設置標記節點的設置選項8.7歷史節點偏差(Offset)。指定目前記錄之前最近的記錄,從其中提取歷史欄位值。例如,如果Offset設爲3,歷史節點在處理每條

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论