grep的陷阱

瞿伟斌 / 2016-04-22

R语言中有一个处理文本的神奇函数grep，其在处理文本数据中屡建奇功，我也多次利用这个函数来查找字符串中的特定字符。但是，在今天精简之前我写的文本挖掘的函数时，却有了一些出乎意料的发现。

起因源于向量化处理函数，以提高计算速度缩短运行时间。于是我查看了每一个函数所用的时间，令我不解地是在25‘的运转时间里，grep函数耗时居然占到了50%以上。这完全超出了我的预期，在我想象中，最耗时的应该是我连续使用的两个for循环，以及里面的赋值运算。然而现实就是之前我一直以为是处理字符串的利器的grep函数其内在却是一个多吃多占的大户。同时我又一次领会到了向量化编程的重要性。下面的两个代码分别是修改前和修改后的，可以体会一下。

修改前：

    for(word in id_table$job_describe){
    if(length(grep(word,stopwords))==0)
      id_keyword = rbind(id_keyword,id_table[grep(paste("^",word,"$",sep = ""),id_table$job_describe),])
    }

修改后：

    for(word in id_table$job_describe){
    if(sum(word == stopwords)==0)
      id_keyword = rbind(id_keyword,id_table[grep(paste("^",word,"$",sep = ""),id_table$job_describe),])
    }

其中在第一个版本中还有一个grep的语法错误，就是前面的pattern的正则表达式部分，不知道各位有木有看出来。

今天真是被这个grep函数坑惨了，学艺不精还是要多看书啊。

另：之前夸下海口说每一篇都要翻译成英文，结果对我来说也是一件艰巨任务，尤其是上一篇的1000+的长文，但是话都放出去了，只能硬着头皮做了。所以这篇就写短点。