海量数据处理 | 岁月轻狂

海量数据处理，顾名思义，是指基于海量数据的存储和处理，因为数据量过大，导致要么无法短时间内解决，要么无法一次性装入内存。

总的方法论

1.时间问题，巧妙算法+合适数据结构（布隆过滤器、散列、位图、堆、数据库、倒排索引、Trie树）
2.空间问题，分而治之，eg:散列映射。

典型方法

1.散列分治 2.多层划分 3.MapReduce 4.外排序 5.位图（bitmap）6.布隆过滤器 7.Trie树 8.数据库 9.倒排索引 10.simhash()
哈希函数：
哈希函数又叫散列函数，哈希函数的输入域可以是非常大的范围，但是输出域是固定范围。假设为s.
1.典型的哈希函数都拥有无限的输入值域。
2.输入值相同时，访问值一样。
3.输入值不同时，返回值可能一样，也可能不一样。
4.不同输入值得到的哈希值，整体均匀分布在输出域s上。（重要，是评价指标）

MD5 和SHA1是经典的哈希函数算法。

将数据（如一段文字）运算变为另一固定长度值，是散列算法的基础原理。
Map-Reduce
1.Map阶段 -> 把大任务分成子任务
2.Reduce阶段 -> 子任务并发处理，然后合并结果。
难点在于工程上的处理。
注意点：
1.备份的策略，分布式存储的设计细节，以及容灾策略。
2.任务分配策略与任务进度跟踪的细节设计，节点状态的呈现。
3.多用户权限的控制。

常见海量处理题目解题概念：
1.分而治之。通过哈希函数将大任务分流到机器，或分流成小文件。
2.常用的hashMap或bitmap
难点:通讯、时间和空间的估算。

1.请对10亿个IPV4的ip地址进行排序，每个ip只会出现一次。
10亿小于 2^32
利用bitmap，若出现则置1，然后将所有值为1 的ip输出,如
192.168.2.113 ->1921682113 将map中第1921682113处的位置置1，按序输出时，因为值为1，所以输出它

2.请对10亿人的年龄进行排序
年龄在0-200之间，使用计数排序

3.有一个包含20亿个全是32位整数的大文件，在其中找到的出现次数最多的数，但是内存限制只有2G.
利用hash函数分流
hash分流