RobertDeMilo

Функциональные объекты часть 3

Oct 24th, 2023
62
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
C++ 10.89 KB | None | 0 0
  1. #include <algorithm>
  2. #include <cmath>
  3. #include <iostream>
  4. #include <map>
  5. #include <set>
  6. #include <string>
  7. #include <utility>
  8. #include <vector>
  9.  
  10. using namespace std;
  11.  
  12. const int MAX_RESULT_DOCUMENT_COUNT = 5;
  13.  
  14. string ReadLine() {
  15.     string s;
  16.     getline(cin, s);
  17.     return s;
  18. }
  19.  
  20. int ReadLineWithNumber() {
  21.     int result;
  22.     cin >> result;
  23.     ReadLine();
  24.     return result;
  25. }
  26.  
  27. vector<string> SplitIntoWords(const string& text) {
  28.     vector<string> words;
  29.     string word;
  30.     for (const char c : text) {
  31.         if (c == ' ') {
  32.             words.push_back(word);
  33.             word = "";
  34.         } else {
  35.             word += c;
  36.         }
  37.     }
  38.     words.push_back(word);
  39.    
  40.     return words;
  41. }
  42.    
  43. struct Document {
  44.     int id;
  45.     double relevance;
  46.     int rating;
  47. };
  48.  
  49. enum class DocumentStatus {
  50.     ACTUAL,
  51.     IRRELEVANT,
  52.     BANNED,
  53.     REMOVED,
  54. };
  55.  
  56. class SearchServer {
  57. public:
  58.     void SetStopWords(const string& text) {
  59.         for (const string& word : SplitIntoWords(text)) {
  60.             stop_words_.insert(word);
  61.         }
  62.     }    
  63.    
  64.     void AddDocument(int document_id, const string& document, DocumentStatus status, const vector<int>& ratings) {
  65.         const vector<string> words = SplitIntoWordsNoStop(document);
  66.         const double inv_word_count = 1.0 / words.size();
  67.         for (const string& word : words) {
  68.             word_to_document_freqs_[word][document_id] += inv_word_count;
  69.         }
  70.         documents_.emplace(document_id,
  71.             DocumentData{
  72.                 ComputeAverageRating(ratings),
  73.                 status
  74.             });
  75.     }
  76.  
  77.     template <typename DocumentPredicate>
  78.     vector<Document> FindTopDocuments(const string& raw_query, DocumentPredicate document_predicate) const {            
  79.         const Query query = ParseQuery(raw_query);
  80.         auto matched_documents = FindAllDocuments(query, document_predicate);
  81.        
  82.         sort(matched_documents.begin(), matched_documents.end(),
  83.              [](const Document& lhs, const Document& rhs) {
  84.                 if (abs(lhs.relevance - rhs.relevance) < 1e-6) {
  85.                     return lhs.rating > rhs.rating;
  86.                 } else {
  87.                     return lhs.relevance > rhs.relevance;
  88.                 }
  89.              });
  90.         if (matched_documents.size() > MAX_RESULT_DOCUMENT_COUNT) {
  91.             matched_documents.resize(MAX_RESULT_DOCUMENT_COUNT);
  92.         }
  93.         return matched_documents;
  94.     }
  95.  
  96.     vector<Document> FindTopDocuments(const string& raw_query) const {            
  97.         return FindTopDocuments(raw_query, [](int document_id, DocumentStatus status, int rating) { return status == DocumentStatus::ACTUAL; });
  98.     }
  99.  
  100.     int GetDocumentCount() const {
  101.         return documents_.size();
  102.     }
  103.    
  104.     tuple<vector<string>, DocumentStatus> MatchDocument(const string& raw_query, int document_id) const {
  105.         const Query query = ParseQuery(raw_query);
  106.         vector<string> matched_words;
  107.         for (const string& word : query.plus_words) {
  108.             if (word_to_document_freqs_.count(word) == 0) {
  109.                 continue;
  110.             }
  111.             if (word_to_document_freqs_.at(word).count(document_id)) {
  112.                 matched_words.push_back(word);
  113.             }
  114.         }
  115.         for (const string& word : query.minus_words) {
  116.             if (word_to_document_freqs_.count(word) == 0) {
  117.                 continue;
  118.             }
  119.             if (word_to_document_freqs_.at(word).count(document_id)) {
  120.                 matched_words.clear();
  121.                 break;
  122.             }
  123.         }
  124.         return {matched_words, documents_.at(document_id).status};
  125.     }
  126.    
  127. private:
  128.     struct DocumentData {
  129.         int rating;
  130.         DocumentStatus status;
  131.     };
  132.  
  133.     set<string> stop_words_;
  134.     map<string, map<int, double>> word_to_document_freqs_;
  135.     map<int, DocumentData> documents_;
  136.    
  137.     bool IsStopWord(const string& word) const {
  138.         return stop_words_.count(word) > 0;
  139.     }
  140.    
  141.     vector<string> SplitIntoWordsNoStop(const string& text) const {
  142.         vector<string> words;
  143.         for (const string& word : SplitIntoWords(text)) {
  144.             if (!IsStopWord(word)) {
  145.                 words.push_back(word);
  146.             }
  147.         }
  148.         return words;
  149.     }
  150.    
  151.     static int ComputeAverageRating(const vector<int>& ratings) {
  152.         int rating_sum = 0;
  153.         for (const int rating : ratings) {
  154.             rating_sum += rating;
  155.         }
  156.         return rating_sum / static_cast<int>(ratings.size());
  157.     }
  158.    
  159.     struct QueryWord {
  160.         string data;
  161.         bool is_minus;
  162.         bool is_stop;
  163.     };
  164.    
  165.     QueryWord ParseQueryWord(string text) const {
  166.         bool is_minus = false;
  167.         // Word shouldn't be empty
  168.         if (text[0] == '-') {
  169.             is_minus = true;
  170.             text = text.substr(1);
  171.         }
  172.         return {
  173.             text,
  174.             is_minus,
  175.             IsStopWord(text)
  176.         };
  177.     }
  178.    
  179.     struct Query {
  180.         set<string> plus_words;
  181.         set<string> minus_words;
  182.     };
  183.    
  184.     Query ParseQuery(const string& text) const {
  185.         Query query;
  186.         for (const string& word : SplitIntoWords(text)) {
  187.             const QueryWord query_word = ParseQueryWord(word);
  188.             if (!query_word.is_stop) {
  189.                 if (query_word.is_minus) {
  190.                     query.minus_words.insert(query_word.data);
  191.                 } else {
  192.                     query.plus_words.insert(query_word.data);
  193.                 }
  194.             }
  195.         }
  196.         return query;
  197.     }
  198.    
  199.     // Existence required
  200.     double ComputeWordInverseDocumentFreq(const string& word) const {
  201.         return log(GetDocumentCount() * 1.0 / word_to_document_freqs_.at(word).size());
  202.     }
  203.  
  204.     template <typename DocumentPredicate>
  205.     vector<Document> FindAllDocuments(const Query& query, DocumentPredicate document_predicate) const {
  206.         map<int, double> document_to_relevance;
  207.         for (const string& word : query.plus_words) {
  208.             if (word_to_document_freqs_.count(word) == 0) {
  209.                 continue;
  210.             }
  211.             const double inverse_document_freq = ComputeWordInverseDocumentFreq(word);
  212.             for (const auto [document_id, term_freq] : word_to_document_freqs_.at(word)) {
  213.                 const auto& document_data = documents_.at(document_id);
  214.                 if (document_predicate(document_id, document_data.status, document_data.rating)) {
  215.                     document_to_relevance[document_id] += term_freq * inverse_document_freq;
  216.                 }
  217.             }
  218.         }
  219.        
  220.         for (const string& word : query.minus_words) {
  221.             if (word_to_document_freqs_.count(word) == 0) {
  222.                 continue;
  223.             }
  224.             for (const auto [document_id, _] : word_to_document_freqs_.at(word)) {
  225.                 document_to_relevance.erase(document_id);
  226.             }
  227.         }
  228.  
  229.         vector<Document> matched_documents;
  230.         for (const auto [document_id, relevance] : document_to_relevance) {
  231.             matched_documents.push_back({
  232.                 document_id,
  233.                 relevance,
  234.                 documents_.at(document_id).rating
  235.             });
  236.         }
  237.         return matched_documents;
  238.     }
  239. };
  240.  
  241.  
  242. // ==================== для примера =========================
  243.  
  244.  
  245. void PrintDocument(const Document& document) {
  246.     cout << "{ "s
  247.          << "document_id = "s << document.id << ", "s
  248.          << "relevance = "s << document.relevance << ", "s
  249.          << "rating = "s << document.rating
  250.          << " }"s << endl;
  251. }
  252.  
  253. int main() {
  254.     SearchServer search_server;
  255.     search_server.SetStopWords("и в на"s);
  256.  
  257.     search_server.AddDocument(0, "белый кот и модный ошейник"s,        DocumentStatus::ACTUAL, {8, -3});
  258.     search_server.AddDocument(1, "пушистый кот пушистый хвост"s,       DocumentStatus::ACTUAL, {7, 2, 7});
  259.     search_server.AddDocument(2, "ухоженный пёс выразительные глаза"s, DocumentStatus::ACTUAL, {5, -12, 2, 1});
  260.     search_server.AddDocument(3, "ухоженный скворец евгений"s,         DocumentStatus::BANNED, {9});
  261.  
  262.     cout << "ACTUAL by default:"s << endl;
  263.     for (const Document& document : search_server.FindTopDocuments("пушистый ухоженный кот"s)) {
  264.         PrintDocument(document);
  265.     }
  266.  
  267.     cout << "ACTUAL:"s << endl;
  268.     for (const Document& document : search_server.FindTopDocuments("пушистый ухоженный кот"s, [](int document_id, DocumentStatus status, int rating) { return status == DocumentStatus::ACTUAL; })) {
  269.         PrintDocument(document);
  270.     }
  271.  
  272.     cout << "Even ids:"s << endl;
  273.     for (const Document& document : search_server.FindTopDocuments("пушистый ухоженный кот"s, [](int document_id, DocumentStatus status, int rating) { return document_id % 2 == 0; })) {
  274.         PrintDocument(document);
  275.     }
  276. }
  277.  
  278.  
  279. // ==================== для тестирования =========================
  280.  
  281.  
  282. // может быть в сданном коде
  283. SearchServer CreateSearchServer() {
  284.     SearchServer search_server;
  285.     search_server.SetStopWords(ReadLine());
  286.  
  287.     const int document_count = ReadLineWithNumber();
  288.     for (int document_id = 0; document_id < document_count; ++document_id) {
  289.         const string document = ReadLine();
  290.  
  291.         int status_raw;
  292.         cin >> status_raw;
  293.  
  294.         int ratings_size;
  295.         cin >> ratings_size;
  296.        
  297.         vector<int> ratings(ratings_size, 0);
  298.        
  299.         for (int& rating : ratings) {
  300.             cin >> rating;
  301.         }
  302.        
  303.         search_server.AddDocument(document_id, document, static_cast<DocumentStatus>(status_raw), ratings);
  304.         ReadLine();
  305.     }
  306.    
  307.     return search_server;
  308. }
  309.  
  310. void PrintMatchDocumentResult(int document_id, const vector<string>& words, DocumentStatus status) {
  311.     cout << "{ "s
  312.          << "document_id = "s << document_id << ", "s
  313.          << "status = "s << static_cast<int>(status) << ", "s
  314.          << "words ="s;
  315.     for (const string& word : words) {
  316.         cout << ' ' << word;
  317.     }
  318.     cout << "}"s << endl;
  319. }
  320.  
  321. int test_main() {
  322.     const SearchServer search_server = CreateSearchServer();
  323.  
  324.     const string query = ReadLine();
  325.  
  326.     cout << "Top documents for query:"s << endl;
  327.     for (const Document& document : search_server.FindTopDocuments(query)) {
  328.         PrintDocument(document);
  329.     }
  330.  
  331.     cout << "Documents' statuses:"s << endl;
  332.     const int document_count = search_server.GetDocumentCount();
  333.     for (int document_id = 0; document_id < document_count; ++document_id) {
  334.         const auto [words, status] = search_server.MatchDocument(query, document_id);
  335.         PrintMatchDocumentResult(document_id, words, status);
  336.     }
  337.  
  338.     return 0;
  339. }
Add Comment
Please, Sign In to add comment