• mongoDB mapreduce使用总结


            大家都知道,mongodb是一个非关系型数据库,也就是说,mongodb数据库中的每张表是独立存在的,表与表之间没有任何依赖关系。在mongodb中,除了各种CRUD语句之外,还给我们提供了聚合和mapreduce统计的功能,这篇文章主要来跟大家聊聊mongodb的mapreduce的操作。

            Map-Reduce部分:Map-Reduce相当于关系型数据库中的group by,主要用于统计数据之用。mapreduce的概念我就不赘述了,大家自己去查查。

    映射化简(官网截取)

    映射化简是一种将大量数据转换为有价值的*聚合*结果的数据处理方式。在MongoDB中,使用 mapReduce 命令来执行映射化简的操作。

    请看下面的映射化简操作:

    在这个映射化简操作中,MongoDB对每个输入文档(例如集合中满足查询条件的文档)执行了*map*操作。映射操作输出了键值对结果。对那些有多个值的关键字,MongoDB执行*reduce*操作,收集并压缩了最终的聚合结果。然后MongoDB把结果保存到一个集合中。化简函数还可以把结果输出到*finalize*函数,进一步对聚合结果做处理,当然这步是可选的。

    在MongoDB中,所有的映射化简函数都是使用JavaScript编写,并且运行在 mongod 进程中。映射化简操作使用一个集合中文档作为*输入*,并且可以在映射阶段之前执行任意的排序和限定操作。 mapReduce 命令可以把结果作为一个文档来返回,也可以把结果写入集合。输入集合和输出集合可以是分片的。

    在mongodb中,mapreduce的语法如下:

    1. db.table.mapReduce(
    2. map,
    3. reduce,
    4. {
    5. query: query,
    6. out: out, //指定结果集以什么方式存储,可选参数包括:
    7. //replace:如果文档(table)存在,则替换table
    8. //merge:如果文档中存在记录,则覆盖已存在的文档记录
    9. //reduce: 如果文档中存在相同key的记录了,则先计算两条记录,然后覆盖旧记录
    10. // {inline:1} 在内存中存储记录,不写入磁盘(用户数据量少的计算)
    11. sort: sort,
    12. limit: limit,
    13. finalize: function //这个function主要用来在存入out之前可以修改数据,function(key,values) {
    14. //return modifiedValues;}
    15. scope: document, //指定reduce可访问的文档范围
    16. jsMode:boolean //指定是否在map和ruduce之间立即将数据转换为Bason格式,默认为false
    17. //如果想设置为true,则要记住官方我那当的注意事项:
    18. //You can only use jsMode for result sets with fewer than
    19. //500,000 distinct key arguments to the mapper’s emit()function.
    20. verbose:boolean //是否在结果集中包含timing信息,默认是包含的
    21. }
    22. )

    在做mongodb的mapreduce时,要确保你的query是可以利用到索引的,不然在大数据量的统计下,将会托夸整个数据库,如果确实没办法建索引,那么就在结果集中判断一些不符合条件的数据,而去掉query。

    mapreduce的语法其实很简单,只不过这里面有几点需要注意一下:

    1.在map中,mongodb是每1000条数据就reduce一次

    2.在map中,如果你想统计一个数据之和,需要这样写:

    emit(key:this.key,sum:0})

    然后再在reduce里需要将上一次的sum迭代累加起来,然后return {sum:sum};如果不这样做,你计算出来的数据总是最后不足1000条数据之后统计出来的,而前面的数据就都丢失了。

    3.如果能不用mapreduce,就不用,程序能够统计的,就不要用mongodb频繁统计。

    4.mapreduce的结果集的数据格式是:{_id:key,value:{}},因此如果想直接使用这个表的话,最好再重新将数据格式整理一次,尽量将数据放在最上次,而不是再用value.xxx去查询。

    这里附上统计我们网站的用户发表内容的数量的mapreduce,仅供一种代码格式的参考价值吧:

    1. var db = connect('127.0.0.1:27017/test');
    2. db.aAccounttemp.drop();
    3. var map = function() {
    4. emit(this.accountId,
    5. {sum:0,
    6. reblogFlag:this.reblogFlag,dashboardFlag:this.dashboardFlag,dashboardType:this.dashboardType,
    7. photoNum:0,postNum:0,reblogNum:0,videoNum:0,videoShortNum:0, musicNum:0,
    8. questionNum:0,appNum:0, dialogNum:0});
    9. }
    10. var reduce = function(key,values) {
    11. var sum = 0;
    12. var photoNum = 0;
    13. var postNum = 0;
    14. var reblogNum = 0;
    15. var videoNum = 0;
    16. var videoShortNum = 0;
    17. var musicNum = 0;
    18. var questionNum = 0;
    19. var appNum = 0;
    20. var dialogNum = 0;
    21. for (var i = 0; i < values.length; i++) {
    22. var data = values[i];
    23. var reblogFlag = data.reblogFlag;
    24. var dashboardFlag = data.dashboardFlag;
    25. var dashboardType = data.dashboardType;
    26. sum += data.sum;
    27. photoNum += data.photoNum;
    28. reblogNum += data.reblogNum;
    29. postNum += data.postNum;
    30. videoNum += data.videoNum;
    31. musicNum += data.musicNum;
    32. videoShortNum += data.videoShortNum;
    33. questionNum += data.questionNum;
    34. appNum += data.appNum;
    35. dialogNum += data.dialogNum;
    36. if(!reblogFlag) {
    37. if(dashboardFlag) {
    38. sum += 1;
    39. if(dashboardType == 10) {
    40. postNum += 1;
    41. } else if(dashboardType == 20) {
    42. photoNum += 1;
    43. } else if(dashboardType == 30) {
    44. videoNum += 1;
    45. } else if(dashboardType == 31) {
    46. videoShortNum += 1;
    47. } else if(dashboardType == 40) {
    48. musicNum += 1;
    49. } else if(dashboardType == 60) {
    50. questionNum += 1;
    51. } else if(dashboardType == 100) {
    52. appNum += 1;
    53. } else if(dashboardType == 91) {
    54. dialogNum += 1;
    55. }
    56. } else {
    57. if(dashboardType == 20) {
    58. photoNum += 1;
    59. }
    60. }
    61. } else if(reblogFlag && dashboardFlag) {
    62. reblogNum += 1;
    63. }
    64. }
    65. return {sum:NumberInt(sum),reblogNum:NumberInt(reblogNum),postNum:NumberInt(postNum),photoNum:NumberInt(photoNum),
    66. videoNum:NumberInt(videoNum),videoShortNum:NumberInt(videoShortNum),
    67. musicNum:NumberInt(musicNum), questionNum:NumberInt(questionNum),appNum:NumberInt(appNum),dialogNum:NumberInt(dialogNum)};
    68. };
    69. db.getMongo().setSlaveOk();
    70. db.dashboard_basic.mapReduce(
    71. map,
    72. reduce,
    73. {
    74. out:{merge:'aAccounttemp'}
    75. }
    76. );
    77. var results = db.aAccounttemp.find();
    78. //重新整理数据格式,存入正规表中
    79. while (results.hasNext()) {
    80. var obj = results.next();
    81. var value = obj.value;
    82. var sum = NumberInt(value.sum);
    83. var reblogNum = NumberInt(value.reblogNum);
    84. var postNum = NumberInt(value.postNum);
    85. var photoNum = NumberInt(value.photoNum);
    86. var videoNum = NumberInt(value.videoNum);
    87. var videoShortNum = NumberInt(value.videoShortNum);
    88. var musicNum = NumberInt(value.musicNum);
    89. var questionNum = NumberInt(value.questionNum);
    90. var appNum = NumberInt(value.appNum);
    91. var dialogNum = NumberInt(value.dialogNum);
    92. var accountId = obj._id;
    93. db.dashboard_account_num.insert({accountId:accountId,sum:sum,reblogNum:reblogNum,postNum:postNum,photoNum:photoNum,
    94. videoShortNum:videoShortNum,videoNum:videoNum,musicNum:musicNum,questionNum:questionNum,
    95. appNum:appNum,dialogNum:dialogNum});
    96. }
    97. print('success insert total ' + results.count()+ ' datas');
    98. db.aAccounttemp.drop()
    99. quit()

    如果本篇文章对你有帮助的话,很高兴能够帮助上你。

    当然,如果你觉得文章有什么让你觉得不合理、或者有更简单的实现方法又或者有理解不来的地方,希望你在看到之后能够在评论里指出来,我会在看到之后尽快的回复你。

  • 相关阅读:
    怎么用Vite创建一个Vue3的项目
    vite - 多渠道差异化打包插件
    数据分析 - 概率计算
    下班前几分钟,Express 快速入门
    简单试验:用Excel进行爬虫
    SAP 批量删除变式
    软件测试之发现问题的方法
    【重拾C语言】九、再论函数(指针、数组、结构体作参数;函数值返回指针、结构体;作用域)
    好用的Visio绘图文件工具 VSD Viewer最新 for mac
    数字信号处理 | 实验二 MATLAB z换和z逆变换分析+求解差分方程+求解单位冲击响应+求解幅频相频特性曲线+求解零极点
  • 原文地址:https://blog.csdn.net/chenthe1/article/details/127935781