经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » R语言 » 查看文章
文本分析 - 聚类分析 (数据挖掘)
来源:cnblogs  作者:划水De雁晓明  时间:2021/1/11 9:37:25  对本文有异议

 

 

文本分析,在数据挖掘,甚至是深度学习中很重要的分支研究领域。如下运用R语言,通过采用文本相似度算法Jaro-Winkler Distance,能实现:

在题库中查找出相似度高的题并输出自动聚类的结果,从而提炼出练习重点,提高阅读效率。

 

  1. ## 寻找练习重点
  2. library('xlsx')
  3. library('DBI')
  4. library('RSQLite')
  5. library('ff')
  6. library('bit')
  7. library('RecordLinkage')
  8. library('stringr')
  9. library('plyr')
  10.  
  11. # 读取指定题目文件
  12. file <- "D:/data/Q_1.xlsx"
  13. <- read.xlsx(file, 1, encoding = "UTF-8")
  14.  
  15. # 按照规则寻找相似度等于或者高于80%的题
  16. PickOutGroup <- function() {
  17.   {
  18.     #NO_B <- list()
  19.     #PickingList_B <- list()
  20.     i = 1
  21.     for (in 1:length(Q$题号)) {
  22.       Q_Main1 <- Q$题干[i] %>% as.character()
  23.       Q_Branches1 <- Q$选项[i] %>% as.character()
  24.       Q_Main_len <- Q$题干长度[i] %>% as.numeric()
  25.       Q_list <- list()
  26.       Q_list[i] <- Q$题号[i] %>% as.numeric()
  27.       a = 1
  28.       for (in 1:length(Q$题号)) {
  29.         b = a + 1
  30.         Q_list_Pick <- Q$题号[b] %>% as.numeric()
  31.         # 题干
  32.         Q_Main2 <- Q$题干[b]
  33.         Q_Main_scores <- jarowinkler(Q_Main1, Q_Main2) %>% as.numeric()
  34.         # 选项
  35.         Q_Branches2 <- Q$选项[b]
  36.         Q_Branches_scores <- jarowinkler(Q_Branches1, Q_Branches2) %>% as.numeric()
  37.         # 题干长度
  38.         Q_Main_Len <- Q$题干长度[b] %>% as.numeric()
  39.         Q_Main_length_Con1 <- if (is.na((Q_Main_len >= as.numeric(Q_Main_Len - 10)) %>% as.logical())) { FALSE } else { TRUE }
  40.         Q_Main_length_Con2 <- if (is.na((Q_Main_len <= as.numeric(Q_Main_Len + 10)) %>% as.logical())) { FALSE } else { TRUE }
  41.         Q_Main_length <- tryCatch(if ((Q_Main_length_Con1) & (Q_Main_length_Con2)) { "Yes" } else { "No" }, error = function(e) { cat("ERROR:", conditionMessage((e))) })
  42.         #将相似选项加入列表
  43.         Q_list_Con1 <- (if (as.numeric(length(Q_Main_scores)) == 0) { FALSE } else { Q_Main_scores >= 0.8 }) %>% as.logical()
  44.         Q_list_Con2 <- (if (as.numeric(length(Q_Branches_scores)) == 0) { FALSE } else { Q_Branches_scores >= 0.8 }) %>% as.logical()
  45.         Q_list_Con3 <- (Q_Main_length == "Yes") %>% as.logical()
  46.         Q_list[b] <- tryCatch(if ((Q_list_Con1) & (Q_list_Con2) & (Q_list_Con3)) { Q_list_Pick } else { 0 }, error = function(e) { cat("ERROR:", conditionMessage((e))) })
  47.         a = a + 1
  48.       }
  49.       NO <- Q$题号[i] %>% as.numeric()
  50.       Q_list <- str_c(Q_list, sep = "", collapse = ";") %>% as.character() %>% gsub(pattern = ";0", replacement = "", .) %>% gsub(pattern = "NULL;", replacement = "", .)
  51.       PickingList <- data.frame(NO = NO, PickingList = Q_list)
  52.       unique(write.csv(PickingList, "D:/data/Q_2.csv", append = T))
  53.     }
  54.     i = i + 1
  55.   }
  56. }
  57.  
  58. # 计算代码运行时间
  59. system.time(PickOutGroup())

 

参考:

1. 实际操作视频:https://v.kuaishou.com/70L8Jg

      

 

2. “文本相似度算法Jaro-Winkler Distance” 介绍

       Jaro-Winkler Distance是一个度量两个字符序列之间的编辑距离的字符串度量标准,是由William E. Winkler在1990年提出的Jaro Distance度量标准的一种变体。Jaro Distance是两个单词之间由一个转换为另一个所需的单字符转换的最小数量。Jaro-Winkler Distance通过前缀因子使Jaro Distance相同时共同前缀长度越大的相似度越高。Jaro–Winkler Distance越小,两个字符串越相似。如果分数是0,则表示完全不同,分数为1则表示完全匹配。Jaro–Winkler相似度是1 - Jaro–Winkler Distance。其公式如下:

 

原文链接:http://www.cnblogs.com/yxmings/p/14244403.html

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号