• 在Excel VBA中使用SQL到底优势在哪儿


      小爬在之前的博文中多次提到,可以在VBA中写SQL来操作Excel文件,实现各类数据处理和分析需求。那么,你可能有这样的疑问:Excel原生的VBA,数据透视表,数据分析功能不够吗,为啥一定要用SQL来实现呢?在Excel VBA中使用SQL到底优势在哪儿?今天小爬就来带大家好好捋一捋这些问题。

      首先,在VBA中写SQL,这基本算VBA的高阶功能,不是所有人都掌握,因此,上述的场景除了SQL,确实都有其它技术方案。其次,如果我们对别的技术运用的更熟练,我们完全可以用自己最擅长的技术栈来解决问题。以结果论来说,只要能解决实际问题的方案,都是好方案。

      不过,小爬这里想讨论的是,假如我们对VBA原生方法,数据透视表,SQL等知识都很熟悉的前提下,我们该如何选择技术栈来解决实际问题呢,这个时候,SQL的优势在于什么?我认为有以下几点:

    一、执行效率最高

    跟VBA原生方法和Excel公式比较起来,SQL执行时速度要快很多。当表格数量超过一万行时,这种优势越发明显。数据量越大,越适合用SQL来解决问题,越发高效;

    二、代码极为简洁

    ①、数据匹配场景:我们如果有多个字段要匹配时,原则上需要多个Vlookup或者VBA中建立多个字典,但是,如果我们用SQL的外连接,可能一行代码足够了;

    ②、数据分组聚合场景:如果我们在VBA中录制宏生成数据透视表代码,来分组聚合求最大值,EXCEL后台会自动生成大量代码,这些代码可读性极差,可如果我们使用SQL Group By,结合max,min,average等聚合函数,我们也只用一行SQL语句即可。

    三、实现较为简单

      有一些特殊场景,使用原生VBA方法将极为复杂,但是使用SQL可能就一行代码。以我之前一篇博文VBA如何实现筛选条件之“排除某些值”举例,这个场景,那篇文章用到了很大篇幅来使用纯VBA技巧实现这样一个看似很简单的需求,单的一个“筛选——不包含某些值”的VBA场景,我们需要用到录制宏功能,一维数组、二维数组功能、数组的转置方法、字典的remove方法、字典键快速存入数组方法等。但是其实,如果我们使用SQL,需要用到的知识点就少多了。

      我们重新回顾下这个场景,【源数据】表含有【姓名】【通讯地址】【邮政编码】三列,【例外清单】表中存储着待排除在外的姓名,【结果】表要求返回【源数据】表中不包含【例外清单】姓名的所有数据。我们使用Python faker库生成20000行数据,方便比对大样本时使用不同方法效率上的差异。

     

     

       如果用SQL,本质上我们需要将【源数据】表左外连接(Left Join)【例外清单】表,基于【姓名】列,再加上where条件即可。

     

     

    具体代码如下:

    复制代码
     1 Sub myQuery()
     2   Dim conn As Object, rs As Object, sht1 As Worksheet, sht2 As Worksheet, sht3 As Worksheet, sql As String, startTime As Date, endTime As Date
     3   startTime = Timer
     4   Set conn = CreateObject("ADODB.Connection")
     5   Set rs = CreateObject("ADODB.recordset")
     6   Set sht1 = ThisWorkbook.Sheets("源数据")
     7   Set sht2 = ThisWorkbook.Sheets("例外清单")
     8   Set sht3 = ThisWorkbook.Sheets("结果")
     9   conn.Open "provider=Microsoft.ACE.OLEDB.12.0;extended properties=excel 12.0;data source=" & ThisWorkbook.FullName
    10   sql = "SELECT a.* FROM [源数据$]a LEFT JOIN [例外清单$]b ON a.姓名=b.姓名 WHERE b.姓名 IS NULL"
    11   Set rs = conn.Execute(sql)
    12   For i = 0 To rs.Fields.Count - 1 '输出recordset字段名到【结果】表
    13     sht3.Cells(1, i + 1) = rs.Fields(i).Name
    14   Next
    15   sht3.Cells(2, 1).CopyFromRecordset rs '输出recordset结果到【结果】表
    16   conn.Close
    17   Set conn = Nothing
    18   endTime = Timer
    19   sht3.Activate
    20   MsgBox "累计运行" & (endTime - startTime) & ""
    21 
    22 End Sub
    复制代码

    运行结果如下所示,耗时约0.63秒:

     

    我们再回顾下使用VBA字典来实现这一需求的方法,代码如下:

    复制代码
     1 Sub dictWay()
     2   Dim conn As Object, rs As Object, sht1 As Worksheet, sht2 As Worksheet, sht3 As Worksheet, sql As String, startTime As Date, endTime As Date, maxRow1 As Integer, myDic As Object, maxRow2 As Integer
     3   startTime = Timer
     4   Application.ScreenUpdating = False
     5   Set sht1 = ThisWorkbook.Sheets("源数据")
     6   Set sht2 = ThisWorkbook.Sheets("例外清单")
     7   Set sht3 = ThisWorkbook.Sheets("结果")
     8   Set myDic = CreateObject("scripting.dictionary")
     9   maxRow1 = sht1.Cells(Rows.Count, 1).End(xlUp).Row
    10   maxRow2 = sht2.Cells(Rows.Count, 1).End(xlUp).Row
    11   Dim i As Integer, j As Integer, k As Integer
    12   For i = 2 To maxRow2
    13     myDic.Add sht2.Cells(i, 1).Value, ""
    14   Next
    15   
    16   k = 1
    17   For i = 1 To maxRow1
    18     If myDic.exists(sht1.Cells(i, 1).Value) = False Then
    19         For j = 1 To 3
    20             sht3.Cells(k, j).Value = sht1.Cells(i, j).Value
    21         Next
    22         k = k + 1
    23     End If
    24   
    25   Next
    26 
    27   endTime = Timer
    28   sht3.Activate
    29   Application.ScreenUpdating = True
    30   MsgBox "累计运行" & (endTime - startTime) & ""
    31 
    32 End Sub
    复制代码

    为了让该方法尽可能提速,我们使用了字典,同时关掉了Excel的屏幕刷新。最终20000行数据时,耗时约4秒:

     

    可以看到,与之前VBA的方法比起来,只需要一行SQL语句,逻辑清晰易懂,代码简洁明了,程序运行耗时是传统方法的1/6不到,这就是小爬力推在VBA中使用SQL的主要原因~~

    欢迎扫码关注我的公众号 获取更多爬虫、数据分析的知识!

     

  • 相关阅读:
    学生邮箱白嫖/免费安装JetBrains全家桶(IDEA/pycharm等) —— 保姆级教程
    Codeforces 802I - Fake News(hard) 后缀数组+单调栈
    杰理之内置 FM 没有声音【篇】
    我说MySQL联合索引遵循最左前缀匹配原则,面试官让我回去等通知
    抓住金三银四的尾巴,解锁程序员面试《刷题神器》
    视频营销终极指南,独立站卖家必看
    feign远程调用时如何在请求头加入数据
    深入理解Java虚拟机-垃圾收集器与内存分配策略
    【ESD专题】2.ESD防护及保护器件(电介质和压敏电阻)
    长期用眼不再怕!NineData SQL 窗口支持深色模式
  • 原文地址:https://www.cnblogs.com/new-june/p/15889342.html