kutuzzzov

Урок 6. Функциональные объекты

Nov 20th, 2021 (edited)
300
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
C++ 9.39 KB | None | 0 0
  1. // search_server_s1_t2_v2.cpp
  2.  
  3. #include <algorithm>
  4. #include <cmath>
  5. #include <iostream>
  6. #include <map>
  7. #include <set>
  8. #include <string>
  9. #include <utility>
  10. #include <vector>
  11.  
  12. using namespace std;
  13.  
  14. const int MAX_RESULT_DOCUMENT_COUNT = 5;
  15.  
  16. string ReadLine() {
  17.     string s;
  18.     getline(cin, s);
  19.     return s;
  20. }
  21.  
  22. int ReadLineWithNumber() {
  23.     int result;
  24.     cin >> result;
  25.     ReadLine();
  26.     return result;
  27. }
  28.  
  29. vector<string> SplitIntoWords(const string& text) {
  30.     vector<string> words;
  31.     string word;
  32.     for (const char c : text) {
  33.         if (c == ' ') {
  34.             if (!word.empty()) {
  35.                 words.push_back(word);
  36.                 word.clear();
  37.             }
  38.         } else {
  39.             word += c;
  40.         }
  41.     }
  42.     if (!word.empty()) {
  43.         words.push_back(word);
  44.     }
  45.  
  46.     return words;
  47. }
  48.  
  49.  
  50. struct Document {
  51.     int id;
  52.     double relevance;
  53.     int rating;
  54. };
  55.  
  56.  
  57. enum class DocumentStatus {
  58.     ACTUAL,
  59.     IRRELEVANT,
  60.     BANNED,
  61.     REMOVED,
  62. };
  63.  
  64.  
  65. class SearchServer {
  66. public:
  67.     void SetStopWords(const string& text) {
  68.         for (const string& word : SplitIntoWords(text)) {
  69.             stop_words_.insert(word);
  70.         }
  71.     }    
  72.    
  73.     void AddDocument(int document_id, const string& document, DocumentStatus status, const vector<int>& ratings) {
  74.         const vector<string> words = SplitIntoWordsNoStop(document);
  75.         const double inv_word_count = 1.0 / words.size();
  76.         for (const string& word : words) {
  77.             word_to_document_freqs_[word][document_id] += inv_word_count;
  78.         }
  79.         documents_.emplace(document_id,
  80.             DocumentData{
  81.                 ComputeAverageRating(ratings),
  82.                 status
  83.             });
  84.     }
  85.    
  86.  vector<Document> FindTopDocuments(const string& raw_query) const {
  87.  auto matched_documents = FindTopDocuments(raw_query, [](int document_id, const DocumentStatus& status , int rating) {return status == DocumentStatus::ACTUAL;;});
  88.  return matched_documents;
  89.     }  
  90.      
  91.    
  92. template <typename DocumentPredicate>
  93.     vector<Document> FindTopDocuments(const string& raw_query, DocumentPredicate document_predicate) const {            
  94.         const Query query = ParseQuery(raw_query);
  95.      
  96.         auto matched_documents = FindAllDocuments(query, document_predicate);
  97.    
  98.         sort(matched_documents.begin(), matched_documents.end(),
  99.              [](const Document& lhs, const Document& rhs) {
  100.                 if (abs(lhs.relevance - rhs.relevance) < 1e-6) {
  101.                     return lhs.rating > rhs.rating;
  102.                 } else {
  103.                     return lhs.relevance > rhs.relevance;
  104.                 }
  105.              });
  106.         if (matched_documents.size() > MAX_RESULT_DOCUMENT_COUNT) {
  107.             matched_documents.resize(MAX_RESULT_DOCUMENT_COUNT);
  108.         }
  109.         return matched_documents;
  110.     }
  111.      
  112.  
  113.     int GetDocumentCount() const {
  114.         return documents_.size();
  115.     }
  116.    
  117.     tuple<vector<string>, DocumentStatus> MatchDocument(const string& raw_query, int document_id) const {
  118.         const Query query = ParseQuery(raw_query);
  119.         vector<string> matched_words;
  120.         for (const string& word : query.plus_words) {
  121.             if (word_to_document_freqs_.count(word) == 0) {
  122.                 continue;
  123.             }
  124.             if (word_to_document_freqs_.at(word).count(document_id)) {
  125.                 matched_words.push_back(word);
  126.             }
  127.         }
  128.         for (const string& word : query.minus_words) {
  129.             if (word_to_document_freqs_.count(word) == 0) {
  130.                 continue;
  131.             }
  132.             if (word_to_document_freqs_.at(word).count(document_id)) {
  133.                 matched_words.clear();
  134.                 break;
  135.             }
  136.         }
  137.         return {matched_words, documents_.at(document_id).status};
  138.     }
  139.    
  140. private:
  141.     struct DocumentData {
  142.         int rating;
  143.         DocumentStatus status;
  144.     };
  145.  
  146.    
  147.    
  148.     set<string> stop_words_;
  149.     map<string, map<int, double>> word_to_document_freqs_;
  150.     map<int, DocumentData> documents_;  
  151.    
  152.    
  153.    
  154.    
  155.     bool IsStopWord(const string& word) const {
  156.         return stop_words_.count(word) > 0;
  157.     }
  158.    
  159.     vector<string> SplitIntoWordsNoStop(const string& text) const {
  160.         vector<string> words;
  161.         for (const string& word : SplitIntoWords(text)) {
  162.             if (!IsStopWord(word)) {
  163.                 words.push_back(word);
  164.             }
  165.         }
  166.         return words;
  167.     }
  168.    
  169.     static int ComputeAverageRating(const vector<int>& ratings) {
  170.         if (ratings.empty()) {
  171.             return 0;
  172.         }
  173.         int rating_sum = 0;
  174.         for (const int rating : ratings) {
  175.             rating_sum += rating;
  176.         }
  177.         return rating_sum / static_cast<int>(ratings.size());
  178.     }
  179.    
  180.     struct QueryWord {
  181.         string data;
  182.         bool is_minus;
  183.         bool is_stop;
  184.     };
  185.    
  186.     QueryWord ParseQueryWord(string text) const {
  187.         bool is_minus = false;
  188.         // Word shouldn't be empty
  189.         if (text[0] == '-') {
  190.             is_minus = true;
  191.             text = text.substr(1);
  192.         }
  193.         return {
  194.             text,
  195.             is_minus,
  196.             IsStopWord(text)
  197.         };
  198.     }
  199.    
  200.     struct Query {
  201.         set<string> plus_words;
  202.         set<string> minus_words;
  203.     };
  204.    
  205.     Query ParseQuery(const string& text) const {
  206.         Query query;
  207.         for (const string& word : SplitIntoWords(text)) {
  208.             const QueryWord query_word = ParseQueryWord(word);
  209.             if (!query_word.is_stop) {
  210.                 if (query_word.is_minus) {
  211.                     query.minus_words.insert(query_word.data);
  212.                 } else {
  213.                     query.plus_words.insert(query_word.data);
  214.                 }
  215.             }
  216.         }
  217.         return query;
  218.     }
  219.    
  220.     // Existence required
  221.     double ComputeWordInverseDocumentFreq(const string& word) const {
  222.         return log(GetDocumentCount() * 1.0 / word_to_document_freqs_.at(word).size());
  223.     }
  224.  
  225.    
  226.    
  227.     template <typename DocumentPredicate>
  228.    
  229.    
  230.     vector<Document> FindAllDocuments(const Query& query, DocumentPredicate document_predicate) const {
  231.     map<int, double> document_to_relevance;
  232.     for (const string& word : query.plus_words) {
  233.     if (word_to_document_freqs_.count(word) == 0) { continue;}
  234.        
  235.        
  236.             const double inverse_document_freq = ComputeWordInverseDocumentFreq(word);
  237.             for (const auto [document_id, term_freq] : word_to_document_freqs_.at(word)) {
  238.                
  239.                                            
  240.                
  241.                 if (document_predicate (document_id, documents_.at(document_id).status, documents_.at(document_id).rating) )
  242.                 {
  243.                     document_to_relevance[document_id] += term_freq * inverse_document_freq;
  244.                 }
  245.                              
  246.                
  247.                
  248.             }
  249.         }
  250.        
  251.         for (const string& word : query.minus_words) {
  252.             if (word_to_document_freqs_.count(word) == 0) {
  253.                 continue;
  254.             }
  255.             for (const auto [document_id, _] : word_to_document_freqs_.at(word)) {
  256.                 document_to_relevance.erase(document_id);
  257.             }
  258.         }
  259.  
  260.         vector<Document> matched_documents;
  261.         for (const auto [document_id, relevance] : document_to_relevance) {
  262.             matched_documents.push_back({
  263.                 document_id,
  264.                 relevance,
  265.                 documents_.at(document_id).rating
  266.             });
  267.         }
  268.         return matched_documents;
  269.     }
  270. };
  271.  
  272. // ==================== для примера =========================
  273.  
  274.  
  275. void PrintDocument(const Document& document) {
  276.     cout << "{ "s
  277.          << "document_id = "s << document.id << ", "s
  278.          << "relevance = "s << document.relevance << ", "s
  279.          << "rating = "s << document.rating
  280.          << " }"s << endl;
  281. }
  282.  
  283. int main() {
  284.     SearchServer search_server;
  285.     search_server.SetStopWords("и в на"s);
  286.  
  287.     search_server.AddDocument(0, "белый кот и модный ошейник"s,        DocumentStatus::ACTUAL, {8, -3});
  288.     search_server.AddDocument(1, "пушистый кот пушистый хвост"s,       DocumentStatus::ACTUAL, {7, 2, 7});
  289.     search_server.AddDocument(2, "ухоженный пёс выразительные глаза"s, DocumentStatus::ACTUAL, {5, -12, 2, 1});
  290.     search_server.AddDocument(3, "ухоженный скворец евгений"s,         DocumentStatus::BANNED, {9});
  291.  
  292.     cout << "ACTUAL by default:"s << endl;
  293.     for (const Document& document : search_server.FindTopDocuments("пушистый ухоженный кот"s)) {
  294.         PrintDocument(document);
  295.     }
  296.  
  297.     cout << "ACTUAL:"s << endl;
  298.     for (const Document& document : search_server.FindTopDocuments("пушистый ухоженный кот"s, [](int document_id, DocumentStatus status, int rating) { return status == DocumentStatus::ACTUAL; })) {
  299.         PrintDocument(document);
  300.     }
  301.  
  302.     cout << "Even ids:"s << endl;
  303.     for (const Document& document : search_server.FindTopDocuments("пушистый ухоженный кот"s, [](int document_id, DocumentStatus status, int rating) { return document_id % 2 == 0; })) {
  304.         PrintDocument(document);
  305.     }
  306.  
  307.     return 0;
  308. }
  309.  
Add Comment
Please, Sign In to add comment