数据挖掘：特征工程：文本特征提取教程

上传人：陈*** IP属地：河北上传时间：2024-10-06 格式：DOCX 页数：17 大小：27.49KB 积分：6 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据挖掘：特征工程：文本特征提取教程1数据挖掘：特征工程：文本特征提取1.1文本预处理文本预处理是文本特征提取前的重要步骤，它能够提高后续特征工程的效率和效果。下面将详细介绍文本预处理的几个关键环节：文本清洗、分词与词干化、去除停用词、词频统计。1.1.1文本清洗文本清洗的目的是去除文本中的噪声，如HTML标签、特殊字符、数字、标点符号等，保留有意义的文本信息。1.1.1.1示例代码importre

defclean_text(text):

"""

清洗文本，去除HTML标签和特殊字符

:paramtext:原始文本

:return:清洗后的文本

"""

#去除HTML标签

text=re.sub('<[^>]*>','',text)

#去除非字母字符

text=re.sub('[^a-zA-Z]','',text)

returntext

#示例数据

text="<p>这是一个测试文本，包含HTML标签和特殊字符！</p>"

cleaned_text=clean_text(text)

print(cleaned_text)#输出：'这是一个测试文本包含HTML标签和特殊字符'1.1.2分词与词干化分词是将连续的文本切分成独立的词汇单元。词干化则是将词汇还原为其基本形式，减少词汇的多样性，提高特征的通用性。1.1.2.1示例代码fromnltk.tokenizeimportword_tokenize

fromnltk.stemimportPorterStemmer

deftokenize_and_stem(text):

"""

分词并进行词干化

:paramtext:清洗后的文本

:return:词干化后的词汇列表

"""

stemmer=PorterStemmer()

#分词

words=word_tokenize(text)

#词干化

stemmed_words=[stemmer.stem(word)forwordinwords]

returnstemmed_words

#示例数据

text="这是一个测试文本，包含HTML标签和特殊字符！"

cleaned_text=clean_text(text)

stemmed_words=tokenize_and_stem(cleaned_text)

print(stemmed_words)#输出：['这','是','一','个','测试','文本','包含','html','标签','和','特殊','字符']1.1.3去除停用词停用词是指在信息检索中通常被过滤掉的词，如“的”、“是”、“在”等，这些词在文本中出现频率高，但对文本内容的区分度贡献较小。1.1.3.1示例代码fromnltk.corpusimportstopwords

defremove_stopwords(words):

"""

去除停用词

:paramwords:分词后的词汇列表

:return:去除停用词后的词汇列表

"""

#加载停用词列表

stop_words=set(stopwords.words('english'))

#去除停用词

filtered_words=[wordforwordinwordsifword.lower()notinstop_words]

returnfiltered_words

#示例数据

words=['这','是','一','个','测试','文本','包含','html','标签','和','特殊','字符']

filtered_words=remove_stopwords(words)

print(filtered_words)#输出：['这','测试','文本','包含','html','标签','特殊','字符']1.1.4词频统计词频统计是计算文本中每个词出现的频率，用于后续的特征选择和权重计算。1.1.4.1示例代码fromcollectionsimportCounter

defcount_words(words):

"""

统计词汇频率

:paramwords:去除停用词后的词汇列表

:return:词频统计结果

"""

#统计词频

word_counts=Counter(words)

returnword_counts

#示例数据

words=['这','测试','文本','包含','html','标签','特殊','字符']

word_counts=count_words(words)

print(word_counts)#输出：Counter({'这':1,'测试':1,'文本':1,'包含':1,'html':1,'标签':1,'特殊':1,'字符':1})以上步骤是文本预处理的基本流程，通过这些步骤，可以将原始文本转化为可用于特征工程的词汇列表。在实际应用中，可能还需要根据具体需求进行进一步的处理，如词性标注、命名实体识别等，以提取更丰富的文本特征。2文本特征编码文本特征编码是将文本数据转换为机器学习算法可以理解的数值形式的过程。在数据挖掘和自然语言处理中，这是关键的一步，因为原始文本数据（如单词和句子）不能直接输入到大多数机器学习模型中。下面，我们将深入探讨几种常见的文本特征编码技术：词袋模型、TF-IDF、词嵌入和N-gram模型。2.1词袋模型词袋模型(BagofWords,BoW)是一种将文本转换为向量的简单方法。它忽略了单词在文本中的顺序，只关注单词的出现频率。2.1.1原理词袋模型首先创建一个词汇表，包含所有文档中出现的单词。然后，对于每篇文档，它会统计词汇表中每个单词的出现次数，形成一个向量。2.1.2示例代码fromsklearn.feature_extraction.textimportCountVectorizer

#示例文本数据

documents=[

"我喜欢吃苹果",

"苹果很好吃",

"我不喜欢吃香蕉",

"香蕉和苹果都很好吃"

]

#创建CountVectorizer对象

vectorizer=CountVectorizer()

#将文本数据转换为词袋模型

bow=vectorizer.fit_transform(documents)

#打印词汇表

print(vectorizer.get_feature_names_out())

#打印词袋模型的矩阵

print(bow.toarray())2.1.3解释在这个例子中，我们使用了sklearn库中的CountVectorizer类来实现词袋模型。documents列表包含了四篇中文文档。fit_transform方法创建了词汇表，并统计了每篇文档中每个单词的出现次数。最后，我们打印了词汇表和词袋模型的矩阵。2.2TF-IDFTF-IDF（TermFrequency-InverseDocumentFrequency）是一种加权技术，用于评估一个词在文档中的重要性。它结合了词频（TF）和逆文档频率（IDF）。2.2.1原理TF-IDF值由两部分组成：词频（TF）和逆文档频率（IDF）。词频是单词在文档中出现的频率，而逆文档频率是文档频率的倒数，用于衡量单词的普遍重要性。2.2.2示例代码fromsklearn.feature_extraction.textimportTfidfVectorizer

#使用相同的示例文本数据

documents=[

"我喜欢吃苹果",

"苹果很好吃",

"我不喜欢吃香蕉",

"香蕉和苹果都很好吃"

]

#创建TfidfVectorizer对象

tfidf_vectorizer=TfidfVectorizer()

#将文本数据转换为TF-IDF模型

tfidf=tfidf_vectorizer.fit_transform(documents)

#打印TF-IDF矩阵

print(tfidf.toarray())2.2.3解释TfidfVectorizer类用于实现TF-IDF模型。在这个例子中，我们使用了与词袋模型相同的文本数据。fit_transform方法计算了每篇文档中每个单词的TF-IDF值。与词袋模型不同，TF-IDF模型考虑了单词在整个文档集合中的频率，从而更好地反映了单词的重要性。2.3词嵌入词嵌入是一种将单词转换为固定长度向量的方法，这些向量能够捕捉单词的语义信息和上下文关系。2.3.1原理词嵌入通过神经网络学习单词的向量表示，使得语义相似的单词在向量空间中距离较近。常见的词嵌入方法包括Word2Vec和GloVe。2.3.2示例代码importgensim.downloaderasapi

#下载预训练的词嵌入模型

model=api.load("word2vec-zh")

#示例单词

word="苹果"

#获取单词的向量表示

vector=model[word]

#打印向量

print(vector)2.3.3解释在这个例子中，我们使用了gensim库来加载预训练的Word2Vec模型。load函数用于下载模型，model[word]则获取了单词“苹果”的向量表示。词嵌入模型通常需要大量的文本数据进行训练，因此使用预训练模型是一种常见的做法。2.4N-gram模型N-gram模型是一种统计语言模型，用于预测序列中下一个单词的概率。在特征工程中，N-gram用于捕捉单词的组合特征。2.4.1原理N-gram模型考虑了连续的N个单词的组合，N可以是1（称为unigram）、2（称为bigram）、3（称为trigram）等。这些组合可以作为特征输入到机器学习模型中。2.4.2示例代码fromsklearn.feature_extraction.textimportCountVectorizer

#示例文本数据

documents=[

"我喜欢吃苹果",

"苹果很好吃",

"我不喜欢吃香蕉",

"香蕉和苹果都很好吃"

]

#创建CountVectorizer对象，使用bigram

vectorizer=CountVectorizer(ngram_range=(2,2))

#将文本数据转换为bigram模型

bigram=vectorizer.fit_transform(documents)

#打印bigram模型的矩阵

print(bigram.toarray())2.4.3解释在这个例子中，我们使用了CountVectorizer类来实现bigram模型。通过设置ngram_range=(2,2)，我们告诉模型只考虑连续的两个单词的组合。fit_transform方法创建了bigram模型，并统计了每篇文档中每个bigram的出现次数。与词袋模型相比，N-gram模型能够捕捉到单词之间的顺序关系，从而提供更丰富的文本特征。以上四种文本特征编码技术各有优缺点，选择哪种方法取决于具体的应用场景和数据特性。词袋模型和TF-IDF模型简单易用，但忽略了单词的顺序信息。词嵌入模型能够捕捉单词的语义信息，但需要大量的训练数据和计算资源。N-gram模型介于两者之间，能够捕捉到一定程度的顺序信息，但特征空间会随着N的增加而迅速膨胀。在实际应用中，通常会结合使用多种方法，以获得更全面的文本特征表示。3高级文本特征提取技术3.1主题模型主题模型是一种统计模型，用于发现文档集合或语料库中的抽象主题。它假设文档由多个主题组成，每个主题由一组词语的概率分布表示。最著名的主题模型是LatentDirichletAllocation(LDA)。3.1.1示例：使用Python的Gensim库进行LDA主题建模fromgensimimportcorpora,models

fromgensim.utilsimportsimple_preprocess

fromnltk.corpusimportstopwords

importnltk

nltk.download('stopwords')

#示例数据

documents=[

"数据挖掘是计算机科学的一个领域，涉及从大量数据中发现模式。",

"特征工程是机器学习中一个重要的步骤，用于从原始数据中提取特征。",

"文本特征提取技术在自然语言处理中至关重要。",

"主题模型可以帮助我们理解文档集合中的主要话题。",

"情感分析用于识别和提取文本中的情感信息。",

"命名实体识别是识别文本中具有特定意义的实体。",

"依存句法分析用于理解句子中词语之间的关系。"

]

#文本预处理

defpreprocess(text):

result=[]

fortokeninsimple_preprocess(text):

iftokennotinstopwords.words('chinese'):

result.append(token)

returnresult

#创建词典和语料库

texts=[preprocess(doc)fordocindocuments]

dictionary=corpora.Dictionary(texts)

corpus=[dictionary.doc2bow(text)fortextintexts]

#训练LDA模型

lda_model=models.LdaModel(corpus,num_topics=2,id2word=dictionary,passes=10)

#打印主题

foridx,topicinlda_model.print_topics(-1):

print('Topic:{}\nWords:{}'.format(idx,topic))3.1.2解释此代码示例首先预处理文本数据，去除停用词。然后，使用Gensim库创建词典和语料库，最后训练LDA模型并打印出主题及其主要词语。3.2情感分析情感分析旨在识别和提取文本中的情感信息，如正面、负面或中性情感。它广泛应用于社交媒体监控、产品评论分析等领域。3.2.1示例：使用Python的TextBlob库进行情感分析fromtextblobimportTextBlob

#示例数据

text="我非常喜欢数据挖掘和特征工程，它们为我的项目提供了巨大的帮助。"

#创建TextBlob对象

blob=TextBlob(text)

#打印情感极性和主观性

print("Polarity:",blob.sentiment.polarity)

print("Subjectivity:",blob.sentiment.subjectivity)3.2.2解释TextBlob库提供了一个简单的方法来分析文本的情感。sentiment.polarity返回一个介于-1（负面）和1（正面）之间的值，而sentiment.subjectivity返回一个介于0（客观）和1（主观）之间的值。3.3命名实体识别命名实体识别（NER）是自然语言处理中的一个任务，用于识别文本中具有特定意义的实体，如人名、地名、组织名等。3.3.1示例：使用Python的Spacy库进行命名实体识别importspacy

#加载中文模型

nlp=spacy.load('zh_core_web_sm')

#示例数据

text="李华在清华大学学习，他计划去美国斯坦福大学深造。"

#进行命名实体识别

doc=nlp(text)

#打印识别到的实体

forentindoc.ents:

print(ent.text,ent.label_)3.3.2解释Spacy库提供了强大的命名实体识别功能。在上述代码中，我们加载了中文模型，对文本进行处理，并打印出识别到的实体及其类型。3.4依存句法分析依存句法分析用于理解句子中词语之间的关系，它可以帮助我们解析句子的结构和语义。3.4.1示例：使用Python的Spacy库进行依存句法分析importspacy

#加载中文模型

nlp=spacy.load('zh_core_web_sm')

#示例数据

text="数据挖掘技术在特征工程中起着关键作用。"

#进行依存句法分析

doc=nlp(text)

#打印依存关系

fortokenindoc:

print(token.text,token.dep_,token.head.text)3.4.2解释在代码示例中，我们使用Spacy的中文模型对文本进行依存句法分析。token.dep_表示词语的依存关系，token.head.text表示词语所依附的词语。通过这些高级文本特征提取技术，我们可以从文本数据中挖掘出更深层次的信息，为机器学习和自然语言处理任务提供更丰富的特征。4数据挖掘：特征工程：文本特征提取-特征选择与降维4.1卡方检验卡方检验（Chi-SquareTest）是一种统计学方法，用于评估特征与类别之间的相关性。在文本特征提取中，卡方检验可以用来确定哪些词与特定的类别关系最密切，从而帮助我们选择最相关的特征。4.1.1原理卡方检验基于观察值与期望值之间的差异来计算卡方统计量，其公式为：χ其中，Oi是观察值，E4.1.2示例代码假设我们有以下数据集，包含两个类别（positive,negative）和四个词（good,bad,happy,sad）的文档频率：importnumpyasnp

fromsklearn.feature_selectionimportchi2

fromsklearn.feature_extraction.textimportCountVectorizer

#文本数据

texts=[

"Ifeelgoodtoday",

"It'sabadday",

"Iamsohappy",

"Iamfeelingsad",

"Goodthingshappen",

"Badthingshappen",

"Happymoments",

"Sadmoments",

"Goodandhappy",

"Badandsad"

]

#类别标签

labels=[1,0,1,0,1,0,1,0,1,0]

#将文本转换为词频矩阵

vectorizer=CountVectorizer()

X=vectorizer.fit_transform(texts)

#执行卡方检验

chi_scores,_=chi2(X,labels)

#获取特征名称

feature_names=vectorizer.get_feature_names_out()

#打印卡方检验得分最高的特征

forscore,featureinsorted(zip(chi_scores,feature_names),reverse=True):

print(f"{feature}:{score}")4.1.3解释上述代码首先使用CountVectorizer将文本数据转换为词频矩阵。然后，使用chi2函数计算每个特征的卡方检验得分。最后，打印出得分最高的特征，这通常意味着这些特征与类别标签有较强的关联性。4.2互信息互信息（MutualInformation,MI）是衡量两个随机变量之间依赖性的信息论指标。在文本特征工程中，互信息可以用来评估词与类别之间的相关性，从而帮助选择最具信息量的特征。4.2.1原理互信息定义为：I其中，X和Y是两个随机变量，px,y是它们的联合概率，p4.2.2示例代码使用互信息进行特征选择的代码示例：fromsklearn.feature_selectionimportmutual_info_classif

fromsklearn.feature_extraction.textimportTfidfVectorizer

#使用TfidfVectorizer转换文本数据

vectorizer=TfidfVectorizer()

X=vectorizer.fit_transform(texts)

#计算互信息

mi_scores=mutual_info_classif(X,labels)

#打印互信息得分最高的特征

forscore,featureinsorted(zip(mi_scores,feature_names),reverse=True):

print(f"{feature}:{score}")4.2.3解释此代码使用TfidfVectorizer来转换文本数据，这可以更好地反映词的重要性。然后，使用mutual_info_classif函数计算每个特征的互信息得分。最后，打印出得分最高的特征，这些特征对于分类任务来说是最有信息量的。4.3主成分分析主成分分析（PrincipalComponentAnalysis,PCA）是一种用于数据降维的统计方法。在文本特征工程中，PCA可以用来减少特征维度，同时保留数据的大部分信息。4.3.1原理PCA通过线性变换将原始特征映射到新的特征空间，新特征是原始特征的线性组合，且新特征之间是正交的。PCA的目标是找到数据的主成分，即数据的方差最大的方向。4.3.2示例代码使用PCA进行文本数据降维的代码示例：fromsklearn.decompositionimportPCA

#使用PCA降维

pca=PCA(n_components=2)

X_pca=pca.fit_transform(X.toarray())

#打印降维后的数据

print(X_pca)4.3.3解释此代码使用PCA类将词频矩阵降维到两个主成分。n_components参数指定了降维后的维度。降维后的数据可以用于可视化或作为输入特征进行后续的机器学习任务。4.4LDA降维潜在狄利克雷分配（LatentDirichletAllocation,LDA）是一种主题模型，用于发现文档集合中的潜在主题。在文本特征工程中，LDA可以用来降维，同时保留文本的主题信息。4.4.1原理LDA假设文档由多个主题组成，每个主题由一组词的概率分布表示。通过LDA模型，我们可以将文档表示为主题的分布，从而实现降维。4.4.2示例代码使用LDA进行文本数据降维的代码示例：fromsklearn.decompositionimportLatentDirichletAllocation

#使用LDA降维

lda=LatentDirichletAllocation(n_components=2,random_state=0)

X_lda=lda.fit_transform(X)

#打印降维后的数据

print(X_lda)4.4.3解释此代码使用LatentDirichletAllocation类将词频矩阵降维到两个主题。n_components参数指定了主题的数量。降维后的数据表示了每个文档在两个主题上的分布，可以用于后续的分析或机器学习任务。以上就是关于数据挖掘中特征工程之文本特征提取中特征选择与降维的详细介绍，包括卡方检验、互信息、主成分分析和LDA降维的原理与代码示例。5文本特征在机器学习中的应用5.1文本分类文本分类是自然语言处理(NLP)中的一项基本任务，它涉及将文本数据分配到预定义的类别中。在特征工程中，文本特征提取是关键步骤，它将文本转换为机器学习算法可以理解的数值形式。常见的特征提取方法包括词袋模型(BagofWords)，TF-IDF(词频-逆文档频率)，以及词嵌入(WordEmbeddings)。5.1.1词袋模型示例词袋模型是一种简单的特征提取方法，它忽略了词的顺序，只考虑词的出现频率。fromsklearn.feature_extraction.textimportCountVectorizer

#示例文本数据

documents=[

"我喜欢吃苹果",

"苹果很好吃",

"我不喜欢吃香蕉",

"香蕉味道不错"

]

#创建CountVectorizer对象

vectorizer=CountVectorizer()

#将文本数据转换为词频矩阵

X=vectorizer.fit_transform(documents)

#输出特征名称

print(vectorizer.get_feature_names_out())

#输出词频矩阵

print(X.toarray())5.1.2TF-IDF示例TF-IDF是一种更复杂的特征提取方法，它不仅考虑词的频率，还考虑词在整个文档集合中的重要性。fromsklearn.feature_extraction.textimportTfidfVectorizer

#使用TfidfVectorizer对象

tfidf_vectorizer=TfidfVectorizer()

#将文本数据转换为TF-IDF矩阵

X_tfidf=tfidf_vectorizer.fit_transform(documents)

#输出特征名称

print(tfidf_vectorizer.get_feature_names_out())

#输出TF-IDF矩阵

print(X_tfidf.toarray())5.2情感极性分析情感极性分析旨在确定文本的情感倾向，如正面、负面或中性。特征提取在此过程中至关重要，因为它帮助模型理解文本中的情感词汇。5.2.1TF-IDF与情感词汇示例fromsklearn.feature_extraction.textimportTfidfVectorizer

fromnltk.corpusimportstopwords

importnltk

nltk.download('stopwords')

#示例文本数据

reviews=[

"这家餐厅的食物非常美味，服务也很好。",

"我非常失望，食物冷冰冰的，服务态度恶劣。",

"一般般，没有特别的感觉。"

]

#创建TfidfVectorizer对象，去除停用词

tfidf_vectorizer=TfidfVectorizer(stop_words=stopwords.words('chinese'))

#将文本数据转换为TF-IDF矩阵

X_tfidf_reviews=tfidf_vectorizer.fit_transform(reviews)

#输出特征名称

print(tfidf_vectorizer.get_feature_names_ou

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘：特征工程：文本特征提取教程

文档简介

温馨提示

最新文档

评论

相关文档